![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pyspark
QuinnJob
这个作者很懒,什么都没留下…
展开
-
需求:时序数据下载到本地(2)
#! /bin/bashdayno=$1exec > logs/download_${dayno}.log 2>&1export PATH=/usr/local/share/hadoop/bin:$PATHexport SPARK_HOME=/usr/local/share/sparkexport HADOOP_USER_NAME=dataintel # 数据授权,是按应用组,dataintel # configurationsPYTHON_PATH=py37/py3原创 2022-01-27 14:53:02 · 104 阅读 · 0 评论 -
需求:时序数据下载到本地(1)
模型需要的数据类型类vector,拉取到本地############################################## step-1 pyspark py脚本实现每天跑数逻辑######## concat_ws(’,’,collect_list(event_info)) 配合前一步row_number()时间排序的, 方法组合的数据在交互引擎是有序体现的。但是download到本地就会无序######## 分析上面原因:分布式下每个节点是有序的拉取到本地又变成无序 。##step–原创 2022-01-27 14:36:27 · 1313 阅读 · 0 评论 -
传多个参数(pyspark脚本)
#############################################################################################from pyspark.sql import SparkSessionimport datetimespark=SparkSession.builder.appName(“w9010794”).getOrCreate()def gethql(dayno,dayno1) :hql=f""" """prin原创 2022-01-17 14:56:28 · 1594 阅读 · 0 评论 -
pyspark 学习demo2
from pyspark.sql import SparkSessionimport datetimespark = SparkSession .builder .appName(“get_wifi”) .getOrCreate() ------""表示该行还未写完,创建一个叫get_wifi的对象在spark集群中yarn可见def get_data_dayno(dayno, hour):hql = f"""insert overwrite table data原创 2021-06-12 09:34:42 · 106 阅读 · 0 评论 -
pyspark学习:demo2 (SparkSession)
前言:SparkSession对象为用户提供了创建dataframe对象,读取外部数据源并且转化为DataFrame对象以及执行sql的api。还包含用户对spark集群参数调控,是环境运行的基础。##背景因数据量问题,完全无法通过hive加工,通过pyspark对数据二次落表继续通过sh启动脚本...原创 2021-05-19 18:31:26 · 173 阅读 · 0 评论 -
Pyspark 学习 demo(1)
##学习完W3school中python基本后步入pyspark正式学习DF学习(DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有schema元信息)自信满满 python XXX.py 报错 :ImportError: No module named pyspark 无法启动遂更改为:spark-submit xxx.py ,日志报错。将python脚本通过sh命令启动:保存启动 sh文件。yarn中原创 2021-05-18 17:09:02 · 429 阅读 · 0 评论