- 博客(6)
- 收藏
- 关注
原创 Spark 都干啥
1. 腾讯 广点通是最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势,围绕“数据+算法+系统”这套技术方案,实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法,最终成功应用于广点通pCTR投放系统上,支持每天上百亿的请求量。 基于日志数据的快速查询系统业务构建于Spark之上的Shark,利用其快速查询以及内存表等优势,承担了日志数据的即...
2014-09-21 21:02:05 387
原创 spark 不同执行方式的运行期分析
结论 我还是学学 yarn-server 单个作业 yarn-clinet 的吧 交互 之前的mr 模型 1\ client 会执行inputformat 的getsplit ,write 成文件,然后提交job 包含资源(jar ,conf,..) 2\ yarn 的RM 接手,分配AM 3\ AM 接受,找RM 要资源 找NODENAMAG...
2014-09-20 12:32:03 172
原创 apark 运行和调度
拷贝文档 备用理解 图2显示了Spark程序的运行场景。它由客户端启动,分两个阶段:第一阶段记录变换算子序列、增量构建DAG图;第二阶段由行动算子触 发,DAGScheduler把DAG图转化为作业及其任务集。Spark支持本地单节点运行(开发调试有用)或集群运行。对于后者,客户端运行于 master节点上,通过Cluster manager把划分好分区的任务集发送到集群的worker...
2014-09-20 11:57:02 379
原创 spark 广播(broadcast)变量 和Accumulator
Spark 还有两个很实用的功能。 一个是广播(broadcast)变量。有些数据,如lookup表,可能会在多个作业间反复用到;这些数据比RDD要小得多,不 宜像RDD那样在节点之间划分。解决之道是提供一个新的语言结构——广播变量,来修饰此类数据。Spark运行时把广播变量修饰的内容发到各个节点,并保 存下来,未来再用时无需再送。相比Hadoop的distributed cache,...
2014-09-20 11:41:54 207
原创 SPARK 宽依赖 和窄依赖 transfer action lazy策略之间的关系
下面这段在网上拷贝的 宽依赖 和窄依赖 说明该操作是 是否有shuffler 操作 成长(lineage )的来源 最有趣的部分是DAGScheduler。下面详解它的工作过程。RDD的数据结构里很重要的一个域是对父RDD的依赖。如图3所示,有两类依赖:窄(Narrow)依赖和宽(Wide)依赖。 图3 窄依赖和宽依赖 窄依赖指父RDD的...
2014-09-20 11:22:49 404
原创 scala spark
RDD 值查看 初学习spark ,瞄对象的值可以帮助我们理解 var file = sc.textFile("data.txt") file.foreach(println) 就可以了
2014-09-20 08:23:03 100
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人