spark RDD

1. SPARK 中 RDD 的基本操作流程
    RDD创建->RDD转换->RDD控制->RDD运行。
    RDD创建:RDD的初始创建是由SparkContent来负责的,有内存或者外存文件系统作为数据源
    RDD转换:讲一个RDD通过一定的操作转换为另一种RDD
    RDD控制:对RDD进行持久化,令RDD保存在磁盘或者内存中,以便后续重复使用
    RDD运行:RDD运行出发Spark作业的运行,输出计算结果,结果分为两类,一类声称Scala集合或者标量,另一种保存到外部文件系统中
    示例程序:
    val sc = new SparkContent(集群地址,程序标识,spark安装路径,spark程序JAR包)//RDD创建
    val file = sc.textFile(文件路径)//RDD转换
    val filterRDD = file.filter(操作函数)//RDD转换
    filterRDD.cache()//RDD控制
    filterRDD.count()//RDD运行

2. RDD介绍
    RDD的生成有两种途径:1)来自于内存或者外部存储系统;2)通过其他RDD转换 例如:map,filter,join......
    RDD two operator: 1) Transformation ,2)Action
        1) Transformation is an delay operator, it will run when an action is run;
            at this operator data have two types:
                (1) Value ,that can be used directly
                (2)Key-value pair,that is packaged in pairRDDFunctions ,and user use it must import org.apache.spark.SparkContent._
        2) Action will trigger spark submit job.
















<script>window._bd_share_config={"common":{"bdSnsKey":{},"bdText":"","bdMini":"2","bdMiniList":false,"bdPic":"","bdStyle":"0","bdSize":"16"},"share":{}};with(document)0[(getElementsByTagName('head')[0]||body).appendChild(createElement('script')).src='http://bdimg.share.baidu.com/static/api/js/share.js?v=89860593.js?cdnversion='+~(-new Date()/36e5)];</script>
阅读(16) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~
评论热议
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值