PySpark官方教程:
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html
pyspark的使用和操作(基础整理)
https://blog.csdn.net/cymy001/article/details/78483723
各种函数的例子:
https://blog.csdn.net/qq_23860475/article/details/90714117
spark数据类型:
https://blog.csdn.net/xuejianbest/article/details/80694073
建立spark的session,需要设定工作空间名字 eg: my_ap
import os
os.environ["PYSPARK_PYTHON"] = "/usr/bin/python2.7.10"
# os.environ["PYSPARK_PYTHON"]="/usr/bin/python3.7.3"
from datetime import datetime
from datetime import timedelta
# today=datetime.today()
# cur_date=str(today)[:10]
t = datetime.now()
today = datetime.today().strftime("%Y-%m-%d")
preday = (t-timedelta(days=1)).strftime("%Y-%m-%d")
import os
import sys
spark_name=os.environ.get('SPARK_HOME')
print(spark_name)
cwd=os.getcwd()
cwd #记录当前pyspark工作环境位置
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from pyspark import SparkConf
import math
# from pyspark import SparkContext
# import pdb
spark = SparkSession.builder.appName("my_app").enableHiveSupport().getOrCreate() # type(spark) pyspark.sql.session.SparkSession
#type( SparkSession.builder.appName("test_ltt") ) :pyspark.sql.session.Builder
#需要的话可以通过spark session里面封装的sparkContext获取sc
#sc=spark.sparkContext # type(sc): pyspark.context.SparkContext
特别注意!!!
要使用数据了才会真正运行spark的语句
比如写了100行代码,最后没有print或者show或者保存数据或者cache等, 前面的100行程序都不会运行,只是建立好有向无环图
pyspark读取json文件中的内容
https://blog.csdn.net/appleyuchi/article/details/81130238
sparksql的agg函数
df.groupBy().agg()的简写
作用:在整体DataFrame不分组聚合
来自 <https://blog.csdn.net/zhuiqiuuuu/article/details/72821194>
Pyspark Dataframe添加新的一列
https://blog.csdn.net/sunflower_sara/article/details/104044176
Pyspark .alias
实现对列重命名
Pyspark 一列变多列 、 分割 一行中的list分割转为多列 explode
https://blog.csdn.net/sunflower_sara/article/details/104044252
Pyspark 多列变一列 拼接多列
concat_ws(',',collect_list(concat(concat(concat(concat(rank,'@@'),lon),'@@'),lat))) as info
collect_list collect_set
Pyspark UDF
https://mp.csdn.net/postedit/104044412
Pyspark 分组排序
https://mp.csdn.net/postedit/104044463
拼接
union all
排序 正序 倒序
orderby desc/asc
表的读写创建
https://blog.csdn.net/sunflower_sara/article/details/104044493