自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Spark 都干啥

1. 腾讯 广点通是最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势,围绕“数据+算法+系统”这套技术方案,实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法,最终成功应用于广点通pCTR投放系统上,支持每天上百亿的请求量。 基于日志数据的快速查询系统业务构建于Spark之上的Shark,利用其快速查询以及内存表等优势,承担了日志数据的即...

2014-09-21 21:02:05 387

原创 spark 不同执行方式的运行期分析

结论  我还是学学   yarn-server     单个作业 yarn-clinet 的吧     交互     之前的mr 模型   1\ client 会执行inputformat 的getsplit ,write 成文件,然后提交job 包含资源(jar ,conf,..) 2\ yarn 的RM 接手,分配AM 3\ AM 接受,找RM 要资源 找NODENAMAG...

2014-09-20 12:32:03 172

原创 apark 运行和调度

拷贝文档 备用理解   图2显示了Spark程序的运行场景。它由客户端启动,分两个阶段:第一阶段记录变换算子序列、增量构建DAG图;第二阶段由行动算子触 发,DAGScheduler把DAG图转化为作业及其任务集。Spark支持本地单节点运行(开发调试有用)或集群运行。对于后者,客户端运行于 master节点上,通过Cluster manager把划分好分区的任务集发送到集群的worker...

2014-09-20 11:57:02 379

原创 spark 广播(broadcast)变量 和Accumulator

Spark 还有两个很实用的功能。   一个是广播(broadcast)变量。有些数据,如lookup表,可能会在多个作业间反复用到;这些数据比RDD要小得多,不 宜像RDD那样在节点之间划分。解决之道是提供一个新的语言结构——广播变量,来修饰此类数据。Spark运行时把广播变量修饰的内容发到各个节点,并保 存下来,未来再用时无需再送。相比Hadoop的distributed cache,...

2014-09-20 11:41:54 207

原创 SPARK 宽依赖 和窄依赖 transfer action lazy策略之间的关系

  下面这段在网上拷贝的   宽依赖 和窄依赖   说明该操作是 是否有shuffler 操作   成长(lineage )的来源         最有趣的部分是DAGScheduler。下面详解它的工作过程。RDD的数据结构里很重要的一个域是对父RDD的依赖。如图3所示,有两类依赖:窄(Narrow)依赖和宽(Wide)依赖。    图3 窄依赖和宽依赖 窄依赖指父RDD的...

2014-09-20 11:22:49 404

原创 scala spark

RDD 值查看   初学习spark ,瞄对象的值可以帮助我们理解    var file = sc.textFile("data.txt")  file.foreach(println)   就可以了

2014-09-20 08:23:03 100

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除