初识Spark RDD
Spark 工作方式
1、从外部数据创建输入RDD
2、对RDD进行转化操作生成新的RDD
3、需要被重复利用的中间结果RDD进行持久化操作,如 persist()
4、使用行动操作触发一次并行计算,Spark对计算优化后再执行
创建RDD
两种办法:1、分发驱动器程序中的对象集合 2、读取外部数据集
以读取文件中的一个字符为例,分别给出Python代码
Python:
1
2
3
4
5
|
words
=
sc.textFile("")
#调用转化操作filter
sparkWords
=
words.
filter
(lamda word:
"spark"
in
word)
#调用行动操作first
sparkWords.first()
|
知识图谱如下