《Spark快速大数据分析》笔记 第三章RDD编程
以下内容均摘抄自《Spark快速大数据分析》
运行规则总的来说,每个 Spark 程序或 shell 会话都按如下方式工作。
从外部数据创建出输入 RDD。
使用诸如 filter() 这样的转化操作对 RDD 进行转化,以定义新的 RDD。
告诉 Spark 对需要被重用的中间结果 RDD 执行 persist() 操作。
使用行动操作(例如 count() 和 first() 等)来触发一次并行
原创
2017-11-02 11:05:16 ·
366 阅读 ·
0 评论