【Pyspark】Pyspark入门和常用知识点

最新推荐文章于 2025-04-04 00:02:21 发布

sunflower_sara

最新推荐文章于 2025-04-04 00:02:21 发布

阅读量573

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/sunflower_sara/article/details/104044142

版权

大数据专栏收录该内容

9 篇文章

订阅专栏

PySpark官方教程：

http://spark.apache.org/docs/latest/api/python/pyspark.sql.html

pyspark的使用和操作(基础整理)

https://blog.csdn.net/cymy001/article/details/78483723

各种函数的例子：

https://blog.csdn.net/qq_23860475/article/details/90714117

spark数据类型：

https://blog.csdn.net/xuejianbest/article/details/80694073

建立spark的session，需要设定工作空间名字 eg: my_ap

import os
os.environ["PYSPARK_PYTHON"] = "/usr/bin/python2.7.10"
# os.environ["PYSPARK_PYTHON"]="/usr/bin/python3.7.3"

from datetime import datetime
from datetime import timedelta

# today=datetime.today()
# cur_date=str(today)[:10]
t = datetime.now()
today = datetime.today().strftime("%Y-%m-%d")
preday = (t-timedelta(days=1)).strftime("%Y-%m-%d")

import os
import sys
spark_name=os.environ.get('SPARK_HOME')
print(spark_name)
cwd=os.getcwd()  
cwd #记录当前pyspark工作环境位置

import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from pyspark import SparkConf
import math 
# from pyspark import SparkContext
# import pdb 

spark = SparkSession.builder.appName("my_app").enableHiveSupport().getOrCreate()  # type(spark)  pyspark.sql.session.SparkSession
#type( SparkSession.builder.appName("test_ltt") )  :pyspark.sql.session.Builder
#需要的话可以通过spark session里面封装的sparkContext获取sc
#sc=spark.sparkContext  # type(sc): pyspark.context.SparkContext

特别注意！！！

要使用数据了才会真正运行spark的语句

比如写了100行代码，最后没有print或者show或者保存数据或者cache等，前面的100行程序都不会运行，只是建立好有向无环图

pyspark读取json文件中的内容

https://blog.csdn.net/appleyuchi/article/details/81130238

sparksql的agg函数

df.groupBy().agg()的简写

作用：在整体DataFrame不分组聚合

来自 <https://blog.csdn.net/zhuiqiuuuu/article/details/72821194>

Pyspark Dataframe添加新的一列

https://blog.csdn.net/sunflower_sara/article/details/104044176

Pyspark .alias

实现对列重命名

Pyspark 一列变多列、 分割 一行中的list分割转为多列 explode

https://blog.csdn.net/sunflower_sara/article/details/104044252

Pyspark 多列变一列拼接多列

concat_ws(',',collect_list(concat(concat(concat(concat(rank,'@@'),lon),'@@'),lat))) as info

collect_list collect_set

Pyspark UDF

https://mp.csdn.net/postedit/104044412

Pyspark 分组排序

https://mp.csdn.net/postedit/104044463

拼接

union all

排序正序倒序

orderby desc/asc

表的读写创建

https://blog.csdn.net/sunflower_sara/article/details/104044493