![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
shell
QuinnJob
这个作者很懒,什么都没留下…
展开
-
需求:时序数据下载到本地(3)
##### for i in `seq 0 11` do day=$(date -d"$i days 20220101" +"%Y%m%d") bash download.sh $day done原创 2022-01-27 14:58:05 · 312 阅读 · 0 评论 -
需求:时序数据下载到本地(2)
#! /bin/bash dayno=$1 exec > logs/download_${dayno}.log 2>&1 export PATH=/usr/local/share/hadoop/bin:$PATH export SPARK_HOME=/usr/local/share/spark export HADOOP_USER_NAME=dataintel # 数据授权,是按应用组,dataintel # configurations PYTHON_PATH=py37/py3原创 2022-01-27 14:53:02 · 104 阅读 · 0 评论 -
需求:时序数据下载到本地(1)
模型需要的数据类型类vector,拉取到本地 ############################################## step-1 pyspark py脚本实现每天跑数逻辑 ######## concat_ws(’,’,collect_list(event_info)) 配合前一步row_number()时间排序的, 方法组合的数据在交互引擎是有序体现的。但是download到本地就会无序 ######## 分析上面原因:分布式下每个节点是有序的拉取到本地又变成无序 。 ##step–原创 2022-01-27 14:36:27 · 1313 阅读 · 0 评论 -
shell实现数据质量小功能
step_1 — 创建临时表,模拟数据质量监控情况 create table if not exists dataintel_tmp.qzd_20211026_sjzl_v1 as select 0 as a ,null as b ,null as c ,null as d ,null as e ,0 as f ,0 as g ,0 as h ,0 as i ,3 as j ,6 as k ,7 as l ,12原创 2021-10-29 16:41:39 · 701 阅读 · 0 评论 -
pyspark学习:demo2 (SparkSession)
前言:SparkSession对象为用户提供了创建dataframe对象,读取外部数据源并且转化为DataFrame对象以及执行sql的api。还包含用户对spark集群参数调控,是环境运行的基础。 ##背景因数据量问题,完全无法通过hive加工,通过pyspark对数据二次落表 继续通过sh启动脚本 ...原创 2021-05-19 18:31:26 · 173 阅读 · 0 评论 -
Pyspark 学习 demo(1)
##学习完W3school中python基本后步入pyspark正式学习 DF学习 (DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有schema元信息) 自信满满 python XXX.py 报错 :ImportError: No module named pyspark 无法启动 遂更改为:spark-submit xxx.py ,日志报错。 将python脚本通过sh命令启动: 保存启动 sh文件。 yarn中原创 2021-05-18 17:09:02 · 429 阅读 · 0 评论