pyspark 语法总结

最新推荐文章于 2024-07-29 14:01:21 发布

进击的程序员XA51

最新推荐文章于 2024-07-29 14:01:21 发布

阅读量1.7k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/chenyangXA51/article/details/95049100

版权

这篇博客详细总结了PySpark的语法，包括导入、链接Hive、基础及高阶RDD操作，如action和pair RDD操作，以及如何计算平均值、优化join速度。此外，还介绍了读取文件（如text、json、csv）的方法，累加器和广播变量的使用，以及数值RDD操作和Spark SQL的应用，特别强调了schemaRDD在存储效率上的优势。

摘要由CSDN通过智能技术生成

导入pyspark

# coding:utf-8
#使用pyspark
from pyspark import SparkConf, SparkContext
import pyspark
from pyspark import SparkContext as sc
from pyspark import SparkConf
conf=SparkConf().setAppName("miniProject").setMaster("local[*]")
sc=SparkContext.getOrCreate(conf)
lines = sc.textFile("data_sql.txt")

链接hive:

#链接hive
from pyspark.sql import HiveContext
hive_context = HiveContext(sc)
hive_context.sql('use default')
#读取josn
tweets = hive_context.jsonFile(json文件)
result = hive_context.sql('select * from table')

基础RDD操作：

line.map(func) #func可以是lambad,也可以是定义的函数

rdd.mapValues(func)

rdd.flatMapValues(func) #只针对值，不改变键

line.flatmap(func) #flatmap先对每个元素执行func，再重新变成一个数组,实际上就是执行完类似map的操作后打平，变成一个数组

line1.join(line2)# 保留line1中的key，把line1和line2中key相同的value放到一个元组里，[(key,(value1,value2),....]

leftOuterJoin(),rightOuterJoin() #左右链接

rdd.filter(lambda x:x != 1) #过滤出符合条件的值

rdd.keys(),rdd.values()#返回键、values的RDD

rdd1.union(rdd2) # 所有rdd1和rdd2中的item组合'

rdd1.intersection(rdd2)#'rdd1 和 rdd2的交集'

rdd1.substract(rdd2