RDD操作创建RDD,转换操作

学习完厦门大学数据库spark课程总结
RDD是面对对象的文件集合,类似于dataframe的一行数据,
创建RDD有很多种模式
lines = sc.textFile(“file:///usr/local/spark/…文件目录地址”) 注意sc是sparkContext缩写可能需要import一下,这是从本地文件创建RDD,file:后面是三个///
lines = sc.textFile(“hdfs://localhost:90000/usr/文件目录地址”)从HDFS中创建RDD,也可以不写前面的目录,直接写文件名称也行
llines = sc.parallelize(array) 通过并行数组创建RDD,相当于把(1,2,3)变成了RDD(1)(2)(3)
RDD的操作包括了转换操作和行动操作,RDD本身是无法修改的,每一次转换操作都会形成新的RDD,但RDD的转换操作是依赖惰性机制的,就是说转换过程并不是真的转换了,只是记录了转换的轨迹,等到行动操作发生时,才真的开始转换
RDD转换操作之filter
linesWithSpark = lines.filter(lambda line: “Spark” in line)
RDD转换操作之map
words = lines.map(lambda line:line.split(" “)) 用空格切分,与python一致,”screw you“ 变成 Array(”screw“, ”you“)
RDD转换操作之flatmap
words = lines.flatmap(lambda

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值