scala
hj8380
这个作者很懒,什么都没留下…
展开
-
Spark的standalone源码分析(一)
1. Spark项目介绍 Spark是berkerly大学发起的一个开源项目,全部代码用scala编写,项目发起的目的是为了解决hadoop在处理迭代式计算模式上的不足;总的来说,MR的计算模式适合流式计算,但对于需要大量迭代计算的机器学习来说,hadoop的短板就很明显了,曾经用hadoop实现过k-means的算法,计算效率实在不敢恭维,大量的时间消耗在IO上了。Spark看到了这一点,通过原创 2012-12-31 15:01:01 · 1488 阅读 · 1 评论 -
Spark的standalone源码分析(二)
本文主要描述Spark的standalone模式启动时候,master和work的状态transfer,并简要分析相关的代码;先上一幅状态图 1. Master启动 "$bin"/spark-daemon.sh start spark.deploy.master.Master --ip $SPARK_MASTER_IP --port $SPARK_MASTER_PORT --web原创 2012-12-31 17:01:28 · 1437 阅读 · 0 评论 -
spark的logDebug模式设置
spark采用的是log4j输出运行日志,为了获取spark运行中的日志信息,可以在$SPARK_HOME的conf目录下, 比如输出spark.storage package的debug运行日志,设置如下: # Set everything to be logged to the console log4j.rootCategory=INFO, console log4j原创 2012-12-21 13:44:19 · 5915 阅读 · 0 评论 -
Spark的standalone源码分析(四)
承接上文,继续分析sparkcontext初始化中开启的broadcast服务,文中部分内容参考论文“Performance and Scalability of Broadcast in Spark ”; 2.2 BroadcastManager 相比hadoop,spark的优势在于迭代计算,尤其是一些机器学习算法的实现;在这类计算中,经常需要同步large read-only数据,比原创 2013-02-07 01:20:14 · 1176 阅读 · 0 评论 -
Spark的standalone源码分析(五)
承接上文,本节继续介绍broadcast机制中的BitTorrentBroadcast; 3. BitTorrentBroadcast BitTorrentBroadcast即采用BitTorrent的方式来广播变量; 大致流程如下: 1. 首先,work节点通过GuideMultipleRequests服务向master节点获得selectedSources;master节点原创 2013-02-09 17:49:09 · 716 阅读 · 0 评论