文件读取,转化成RDD,输出
from pyspark.sql import SparkSession
"""
Spark RDD
每个spark都由一个驱动器程序(driver program)来发起集群上的各种并行操作
SparkContext对象代表对计算集群的一个连接,简写为sc
"""
spark = SparkSession.builder.master('local').appName("test_script").getOrCreate()
df = sc.textFile("test.txt")
df2 = df.filter(lambda x: "export" in x)
df3 = df.filter(lambda x: "alias" in x)
print(df2.collect())
print(df3.collect())
RDD常见操作
- 操作可分为转化(transformation)和行动(action)
- 转化: 一个RDD生成一个新的RDD
- 行动: 对RDD计算出一个结果
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').appName("test_script").getOrCreate()
sc = spark.sparkContext
rdd = sc.parallelize([1,2,3,4])
seqOp= (lambda x, y: (x[0]+ y, x[1]+1))
combOp = (lambda x, y: (x[0]+ y[0], x[1]+ y[1]))
res = sc.parallelize([1,2,3,4]).aggregate((0,0), seqOp, combOp)
print(res)
rdd.saveAsTextFile("tmp.txt")
参考1
参考2