spark
老鼬
ddf
展开
-
spark 算子-转化操作
spark 算子系列1-转化操作本下小结将记录转化算操作的第一部分 map flatMap distinct map 函数将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。 输入分区与输出分区一对一,即,有多少个输入分区,就有多少个输出分区//读取HDFS文件到RDD scala > val data = sc.textFile("text.txt") data: org.a转载 2017-07-01 22:21:03 · 465 阅读 · 0 评论 -
spark快速大数据分析笔记_1
RDD 编程创建RDD方法 读取外部数据集 在驱动器程序里分发驱动器程序的对象集合(比如list和set) 转化操作: 会将一个RDD转化为另一个RDD 行动操作: 对RDD计算一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统中(hdfs中) 在行动操作中first()中,spark只需扫描文件知道找到第一个匹配的行动为止,而不需要读取整个文件。 如果想原创 2017-07-16 22:39:03 · 301 阅读 · 0 评论