快速入门pyspark教程
https://sparkbyexamples.com/pyspark/pyspark-read-csv-file-into-dataframe/
进行大量计算前,采用 变量名.cache() 加快运行速度。
不适用jupyter时,运行spark.stop() 关闭spark
1.代码运行时,通过Spark UI 网页查看当前进行程度
2.读写parquet文件为DataFrame
Pyspark将Parquet文件读入DataFrame
1 |
|
Pyspark将DataFrame写入Parquet文件格式
1 |
|
追加或覆盖现有的Parquet文件
1 2 |
|
3.对DataFrame的各种操作 pyspark.sql基础
初始一个DataFrame 即df
1 2 3 4 5 6 7 8 9 10 11 12 |
|
sql基本功能
1.PySpark – show()————————————把当前Dataframe在juipyter中显示
2.PySpark – select()————————————选择若干列
1 2 3 4 5 6 7 8 9 10 11 12 |
|
3.PySpark – withColumn()—————————用于更改值,转换现有列的数据类型,创建新列等等
更改数据类型
1 2 |
|
更新现有列的值,将“ salary”的值乘以100,并将其值更新回“ salary”列
1 |
|
从现有列创建一个列,此代码段通过将“工资”列乘以值-1来创建新列“ CopiedColumn”
1 |
|
添加一个新列
1 2 3 4 |
|
4.PySpark – withColumnRenamed()————重命名列名
1 2 3 4 5 |
|
5.PySpark – where() & filter()
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 |
|
6.PySpark – drop() & dropDuplicates() & distinct()
7.PySpark – orderBy() and sort()
1 2 3 |
|
8.PySpark – groupBy()
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
|
9.PySpark – join()
1 2 3 |
|
10.PySpark – union()
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
|
注意:union函数并不是按照列名和并得,而是按照位置合并的。即DataFrame的列名可以不相同,但对应位置的列将合并在一起。
因此在合并列明在不同位置的两个表时,用unionByName()