spark
文章平均质量分 86
qq_32216775
这个作者很懒,什么都没留下…
展开
-
spark RDD编程
RDD,也就是 弹性分布式数据集 的简称,它是spark处理的分布式元素集合。对于RDD的操作包括:创建RDD(从外部数据或者内存中的数据),转化RDD(利用筛选条件等),调用RDD操作求值。**注意:RDD的操作分为两种:一种是“转化操作”,这种操作相当于只是定义了RDD,例如从一个RDD筛选出另一个RDD。转化操作的特点就是:返回结果仍然是一个RDD对象,转化操作并不会立刻执行,而是会惰性的执...原创 2018-03-27 11:15:02 · 1668 阅读 · 0 评论 -
spark pairRDD操作
一、创建pairRDD的方法①python脚本,使用 map() 函数示例把句子的第一个单词作为键,句子作为值:>>> line=sc.parallelize(["hello world","very good","yes right"])>>> map = line.map(lambda s:((s.split(" "))[0],s))&原创 2018-03-27 11:15:45 · 1707 阅读 · 0 评论