http://airos.blog.51cto.com/10853324/1719870

最新推荐文章于 2020-07-02 16:24:33 发布

hanmini

最新推荐文章于 2020-07-02 16:24:33 发布

阅读量462

点赞数

分类专栏： BigData 文章标签： Saprk Spark RDD

BigData 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

初识Spark RDD

Spark 工作方式

1、从外部数据创建输入RDD

2、对RDD进行转化操作生成新的RDD

3、需要被重复利用的中间结果RDD进行持久化操作，如 persist()

4、使用行动操作触发一次并行计算，Spark对计算优化后再执行

创建RDD

两种办法：1、分发驱动器程序中的对象集合 2、读取外部数据集

以读取文件中的一个字符为例，分别给出Python代码

Python：

 
        words  
        =  
        sc.textFile("") 
       
        #调用转化操作filter 
       
        sparkWords  
        =  
        words. 
        filter 
        (lamda word:  
        "spark"  
        in  
        word) 
       
        #调用行动操作first 
       
        sparkWords.first()

知识图谱如下

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hanmini

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
http://airos.blog.51cto.com/10853324/1719870

初识Spark RDDSpark 工作方式 1、从外部数据创建输入RDD 2、对RDD进行转化操作生成新的RDD 3、需要被重复利用的中间结果RDD进行持久化操作，如 persist() 4、使用行动操作触发一次并行计算，Spark对计算优化后再执行创建RDD 两种办法：1、分发驱动器程序中的对象集合 2、读取外部数据集以读
复制链接

扫一扫