《Spark快速大数据分析》读书笔记_2018年7月19日
Spark的核心是RDD,中文名叫弹性分布式数据集。我把它理解为一种数据结构,在使用Spark处理大数据时要先将数据转化为RDD格式,然后对RDD进行一系列操作。主要操作分为两大类:转换操作和行动操作。转化操作举个例子,在一个文本文件中提取一个单词。行动操作举个例子,对提取出来的这个单词进行统计词频。
附一个简单的入门示例:
lines = sc.textFile("README.md")
...
原创
2018-07-19 10:26:15 ·
153 阅读 ·
0 评论