RDD操作创建RDD，转换操作

最新推荐文章于 2022-09-19 10:42:28 发布

try to stay simple

最新推荐文章于 2022-09-19 10:42:28 发布

阅读量773

点赞数

本文链接：https://blog.csdn.net/qq_45371603/article/details/104576608

版权

学习完厦门大学数据库spark课程总结
RDD是面对对象的文件集合，类似于dataframe的一行数据，
创建RDD有很多种模式
lines = sc.textFile(“file:///usr/local/spark/…文件目录地址”）注意sc是sparkContext缩写可能需要import一下，这是从本地文件创建RDD，file：后面是三个///
lines = sc.textFile(“hdfs://localhost:90000/usr/文件目录地址”）从HDFS中创建RDD,也可以不写前面的目录，直接写文件名称也行
llines = sc.parallelize(array) 通过并行数组创建RDD，相当于把（1，2，3）变成了RDD（1）（2）（3）
RDD的操作包括了转换操作和行动操作，RDD本身是无法修改的，每一次转换操作都会形成新的RDD，但RDD的转换操作是依赖惰性机制的，就是说转换过程并不是真的转换了，只是记录了转换的轨迹，等到行动操作发生时，才真的开始转换
RDD转换操作之filter
linesWithSpark = lines.filter(lambda line: “Spark” in line)
RDD转换操作之map
words = lines.map(lambda line:line.split(" “)) 用空格切分，与python一致，”screw you“ 变成 Array（”screw“， ”you“）
RDD转换操作之flatmap
words = lines.flatmap(lambda

最低0.47元/天解锁文章

try to stay simple

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD操作创建RDD，转换操作

学习完厦门大学数据库spark课程总结RDD是面对对象的文件集合，类似于dataframe的一行数据，创建RDD有很多种模式lines = sc.textFile(“file:///usr/local/spark/…文件目录地址”）注意sc是sparkContext缩写可能需要import一下，这是从本地文件创建RDD，file：后面是三个///lines = sc.textFile(“...
复制链接

扫一扫