spark
二楼后座的香蕉园
我是一名热爱开源,喜欢技术分享的码农!
展开
-
spark源码包的编译
spark源码包的编译和部署生成,其本质只有两种:Maven和SBT (Simple Build Tool), 只不过针对不同的场景而已:Maven编译SBT编译 IntelliJ IDEA编译(可采用Maven或者SBT插件编译),适用于开发人员包部署生成(内嵌Maven编译),使用维护人员编译的目的是生成特定环境下运行Spark本身或者开发Spark Application原创 2014-12-06 22:20:51 · 824 阅读 · 0 评论 -
对Spark中shuffle机制的浅谈
Shuffle,洗牌、搅乱的意思。顾名思义就是把有规则或者有顺序的东西,打乱。打过扑克和麻将的童鞋们会有切身的体验。而在Spark中,Shuffle的过程正好相反,它是将一组无规则的数据,变成一个有规则的数据的一个过程。因为Spark是一个并行分布式的计算框架,数据是按照Key进行分区的,一块块的分区分散在集群中的各个节点上,并不是所有的计算算子都满足于按照一种方式分区进行计算。例如,当需要对数据原创 2015-01-13 21:35:52 · 1131 阅读 · 0 评论 -
Checkpoint
应用的场景1)DAG中Lineage过长,如果要重新计算的,则开销会很大(如在PageRank中)。2)在Shuffle Dependency上采用Lineage的话,由于子RDD分区中的一个分区可能依赖于父RDD的中所有分区,所以需要对父RDD中的每个区进行计算,因为在子RDD中有可能其它分区也依赖于父RDD中的多个分区,这样就会造成很大的冗余计算开销。传统方式在RDD计算中,通原创 2015-01-13 20:32:52 · 807 阅读 · 0 评论 -
大数据应用领域
聚类模型属于飞溅读式挖掘模型,以用户属性、行为、消费等特征数据为输入,将用户自动聚类为若干类,通常用来挖掘潜在目标客户群体,也可以用在大数据营销工具、CRM工具和防欺诈解决方案上。 分类预测模型分析学习历史数据经验,预测分析未来数据发展方向。模型输出是离散数据或类别的称为分类模型,模型输出是数值类型数据的模型称为数值预测模型。分类模型根据训练数据集的类别号属性,学习现有分类数据的分类规原创 2014-12-31 14:55:25 · 738 阅读 · 0 评论 -
RDD与DSM的区别
RDD(Resilient Distributed DataSet)弹性分布式数据集,是Spark的核心数据结构。DSM(Distributed Shared Memory)分布式共享内存,它是一种通用的内存数据抽象。在DSM中,应用可以向全局地址空间的任意位置进行读写操作。RDD与DSM主要区别在于,不仅可以通过批量转换创建(即“写”)RDD,还可以对任意内存位置对写。RDD限制应用执行原创 2015-01-05 10:38:55 · 1509 阅读 · 0 评论