PySpark部分函数使用方法（AWS）

最新推荐文章于 2022-02-10 09:12:08 发布

CayongL

最新推荐文章于 2022-02-10 09:12:08 发布

阅读量1.2k

点赞数

文章标签： python 大数据

本文链接：https://blog.csdn.net/qq_41355565/article/details/120153891

版权

1. 背景

最近使用PySpark做了一些数据处理，目前涉及到的函数有以下部分：

1. toDF()

2. groupBy（）

3. agg（）

4. alias（）

5. F.max（）

6. printSchema（）

7. show（）

8. withColumn（）

9. explode()

10. pivot()

11. select()

12. where()

13. join()

14. sparkDataFrame和python变量互转

15. 排序

16. 空值判断

17. 强转类型

18. 窗口中位数计算

19. 窗口平均数计算

2. 具体使用方法

2.1 加载环境

import sys
import time,datetime
from awsglue.transforms import Join
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue import DynamicFrame
from pyspark.sql import SparkSession, Row, functions
from pyspark.sql.functions import arrays_zip, col, explode
from pyspark.sql import functions as F

from pyspark.sql import Row 
from pyspark.sql.functions import from_unixtime, unix_timestamp, min, max 
from pyspark.sql.functions import current_date


glueContext = GlueContext(SparkContext.getOrCreate())

table_name = 'testir'

s3_schema = glueContext.create_dynamic_frame.from_catalog(database="ir_test_insight1", 
                                                        table_name=table_name, 
                                                        transformation_ctx = "schema", 
                                                        additional_options = {'recurse':True,'groupFiles': 'inPartition'})

2.2 使用方法

1. toDF()

RDD的toDF()方法是用来从一个存在的RDD结构中创建一个DataFrame对象，因为RDD是一个分布式的 Java对象的集合，故它没有包含列的信息，因此DataFrame采用的是默认的列。

df_s3 = s3_schema.toDF()
df_s3.printSchema()
df_s3.show()

2. groupBy（）

group by：主要用来对查询的结果进行分组，相同组合的分组条件在结果集中只显示一行记录。可以添加聚合函数。

3. agg（）

pyspark中的agg聚合运算应该才能达到聚合字段的目的, apply的运算都是一行一行的运算且并没有真实的聚合

4. alias（）

起别名，相当于sql中的as，不过也可以使用as()代替

5. F.max（）

这里的F是引用了spark sql包详情见上面的代码from pyspark.sql import functions as F

max就是取最大值和sql中的语法是一样的

6. printSchema（）

printSchema函数用于输出DataFrame的结构，即包含了哪些列，以及每一列的名称和类型等等

7. show（）

show()就相当于python里面的print()将数据展示出来

但是一般只会展示前20条，()中可以传参，比如show(100)那就是展示前100条

8. withColumn（）

pyspark中在该DF添加新列

9. explode()

10. pivot()

11. select()

选择某一列进行查看，和sql中的语法是一致的

12. where()

where是筛选过滤，另外一个就是filter()这两个都是筛选过滤

13. join()

将两个DF连接起来，跟sql中的inner join ，left join ，right join 结果是一样的

left join

from pyspark.sql import Row
rdd = sc.parallelize([Row(name='Alice', age=5, height=80),Row(name='Alice', age=10, height=80)])
df = rdd.toDF()
rdd1 = sc.parallelize([Row(name='Alice', weight=45)])
df1 = rdd1.toDF()
df.join(df1, ["name"], "left").show()
"""
+-----+---+------+------+                                                       
| name|age|height|weight|
+-----+---+------+------+
|Alice|  5|    80|    45|
|Alice| 10|    80|    45|
+-----+---+------+------+

"""
rdd2 = sc.parallelize([Row(name='Alice', weight=45), Row(name='Alice', weight=45)])
df2 = rdd2.toDF()
df.join(df2, ["name"], "left").show()
"""
+-----+---+------+------+                                                       
| name|age|height|weight|
+-----+---+------+------+
|Alice|  5|    80|    45|
|Alice|  5|    80|    45|
|Alice| 10|    80|    45|
|Alice| 10|    80|    45|
+-----+---+------+------+
"""

outer join

rdd = sc.parallelize([Row(name='Alice', age=5, height=80),Row(name='Bob', age=5, height=80)])
df = rdd.toDF()
rdd = sc.parallelize([Row(name='Alice', age=5, height=80),Row(name='Cycy', age=10, height=80)])
df1 = rdd.toDF()
df.join(df1, ["name"], "outer").show()
"""
+-----+----+------+----+------+                                                 
| name| age|height| age|height|
+-----+----+------+----+------+
| Cycy|null|  null|  10|    80|
|  Bob|   5|    80|null|  null|
|Alice|   5|    80|   5|    80|
+-----+----+------+----+------+
"""

rdd1 = sc.parallelize([Row(name='Alice', age=5, height=80),Row(name='Cycy', age=10, height=80)])
df2 = rdd1.toDF()
print df.join(df1, ["name"], "outer").join(df2, ["name"], "outer").show()
"""
+-----+----+------+----+------+----+------+                                     
| name| age|height| age|height| age|height|
+-----+----+------+----+------+----+------+
| Cycy|null|  null|  10|    80|  10|    80|
|  Bob|   5|    80|null|  null|null|  null|
|Alice|   5|    80|   5|    80|   5|    80|
+-----+----+------+----+------+----+------+
"""

14. sparkDataFrame和python变量互转

在sparkSQL编程的时候，经常需要获取DataFrame的信息，然后python做其他的判断或计算，比如获取dataframe的行数以判断是否需要等待，获取dataframe的某一列或第一行信息以决定下一步的处理，等等。

14.1 获取第一行的值，返回普通python变量

value = df.select('columns_name').first()[0]

# 由于 first() 返回的是 Row 类型，可以看做是dict类型，

# 在只有一列的情况下可以用 [0] 来获取值。

14.2 获取第一行的多个值，返回普通python变量

row = df.select('col_1', 'col_2').first()

col_1_value = row.col_1

col_2_value = row.col_2

# first() 返回的是 Row 类型，可以看做是dict类型，用 row.col_name 来获取值

14.3 获取一列的所有值，或者多列的所有值

rows= df.select('col_1', 'col_2').collect()

value = [[ row.col_1, row.col_2 ] for row in rows ]

# collect() 函数将分布式的dataframe转成local类型的 list-row 格式

15. 排序

data=df_data.filter(col('iTs')<=datetest).sort(desc("iTs")).limit(1)

16. 空值判断

17. 强转类型

data_df = df.withColumn("Plays", df.call_time.cast('float'))

18. 窗口中位数计算

med = F.expr('percentile_approx(SeparatorElementDP, 0.5)')

ssss= Window().partitionBy('gSN').orderBy('iTs').rowsBetween(-2,2)
# test.select('gSN','iTs','SeparatorElementDP',mean('SeparatorElementDP').over(ssss).alias('SeparatorElementDP_1')).show()
df_i3_trip_warning.withColumn('med_val', med.over(ssss)).show()


df_i3_trip_warning.withColumn("list", collect_list("SeparatorElementDP").over(ssss)).withColumn("med_val",med.over(ssss)).show()

19. 窗口平均数计算

ssss= Window().partitionBy('gSN').orderBy('iTs').rowsBetween(-2,2)
df_i3_trip_warning.select('gSN','iTs','SeparatorElementDP',mean('SeparatorElementDP').over(ssss).alias('SeparatorElementDP_1')).show()

`3.参考`

13 SparkJoin

14 将datafram转换为List

16 空值判断

17 强制转换

CayongL

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
PySpark部分函数使用方法（AWS）

1. 背景最近使用PySpark做了一些数据处理，目前涉及到的函数有以下部分：1. toDF()2. groupBy（）3.agg（）4.alias（）5. F.max（）6.printSchema（）7. show（）8. withColumn（）9.explode()10.pivot()11. select()12. where()13. join()2. 具体使用方法2.1 加载环境import sysimport...
复制链接

扫一扫