spark
Nicolos_Z
千里之堤,溃于蚁穴.
展开
-
Spark任务执行流程解析
Spark任务流程如下图所示: 下面会根据该图对每个步骤做详细介绍: 1、RDD ObjectsRDD(ResilientDistributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询原创 2017-05-11 20:10:37 · 1399 阅读 · 0 评论 -
Spark 基于自定义分区的方式 分析点击流日志
通过自定义分区的方式,实现对点击流日志统计,并取出每个模块中点击排行前三的链接。点击日志样本:20160321101954 http://java.study.163.com/java/course/javaee.shtml20160321101954 http://java.study.163.com/java/course/android.shtml20160321101954原创 2017-05-06 13:43:58 · 729 阅读 · 0 评论