2014年09月_lingzhi007

原创 Spark 都干啥

1. 腾讯广点通是最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势，围绕“数据+算法+系统”这套技术方案，实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法，最终成功应用于广点通pCTR投放系统上，支持每天上百亿的请求量。基于日志数据的快速查询系统业务构建于Spark之上的Shark，利用其快速查询以及内存表等优势，承担了日志数据的即...

2014-09-21 21:02:05 387

原创 spark 不同执行方式的运行期分析

结论我还是学学 yarn-server 单个作业 yarn-clinet 的吧交互之前的mr 模型 1\ client 会执行inputformat 的getsplit ,write 成文件，然后提交job 包含资源（jar ,conf,..） 2\ yarn 的RM 接手，分配AM 3\ AM 接受，找RM 要资源找NODENAMAG...

2014-09-20 12:32:03 172

原创 apark 运行和调度

拷贝文档备用理解图2显示了Spark程序的运行场景。它由客户端启动，分两个阶段：第一阶段记录变换算子序列、增量构建DAG图；第二阶段由行动算子触发，DAGScheduler把DAG图转化为作业及其任务集。Spark支持本地单节点运行（开发调试有用）或集群运行。对于后者，客户端运行于 master节点上，通过Cluster manager把划分好分区的任务集发送到集群的worker...

2014-09-20 11:57:02 379

原创 spark 广播（broadcast）变量和Accumulator

Spark 还有两个很实用的功能。一个是广播（broadcast）变量。有些数据，如lookup表，可能会在多个作业间反复用到；这些数据比RDD要小得多，不宜像RDD那样在节点之间划分。解决之道是提供一个新的语言结构——广播变量，来修饰此类数据。Spark运行时把广播变量修饰的内容发到各个节点，并保存下来，未来再用时无需再送。相比Hadoop的distributed cache，...

2014-09-20 11:41:54 207

原创 SPARK 宽依赖和窄依赖 transfer action lazy策略之间的关系

下面这段在网上拷贝的宽依赖和窄依赖说明该操作是是否有shuffler 操作成长(lineage )的来源最有趣的部分是DAGScheduler。下面详解它的工作过程。RDD的数据结构里很重要的一个域是对父RDD的依赖。如图3所示，有两类依赖：窄（Narrow）依赖和宽（Wide）依赖。图3 窄依赖和宽依赖窄依赖指父RDD的...

2014-09-20 11:22:49 404

原创 scala spark

RDD 值查看初学习spark ，瞄对象的值可以帮助我们理解 var file = sc.textFile("data.txt") file.foreach(println) 就可以了

2014-09-20 08:23:03 100

野兽

原创 Spark 都干啥

原创 spark 不同执行方式的运行期分析

原创 apark 运行和调度

原创 spark 广播（broadcast）变量和Accumulator

原创 SPARK 宽依赖和窄依赖 transfer action lazy策略之间的关系

原创 scala spark

空空如也

空空如也

原创 Spark 都干啥

原创 spark 不同执行方式的运行期分析

原创 apark 运行和调度

原创 spark 广播（broadcast）变量 和Accumulator

原创 SPARK 宽依赖 和窄依赖 transfer action lazy策略之间的关系

原创 scala spark

空空如也

空空如也

原创 spark 广播（broadcast）变量和Accumulator

原创 SPARK 宽依赖和窄依赖 transfer action lazy策略之间的关系