- 博客(17)
- 资源 (6)
- 收藏
- 关注
原创 Spark的standalone源码分析(五)
承接上文,本节继续介绍broadcast机制中的BitTorrentBroadcast;3. BitTorrentBroadcastBitTorrentBroadcast即采用BitTorrent的方式来广播变量;大致流程如下:1. 首先,work节点通过GuideMultipleRequests服务向master节点获得selectedSources;master节点
2013-02-09 17:49:09 722
原创 Spark的standalone源码分析(四)
承接上文,继续分析sparkcontext初始化中开启的broadcast服务,文中部分内容参考论文“Performance and Scalability of Broadcast in Spark ”;2.2 BroadcastManager相比hadoop,spark的优势在于迭代计算,尤其是一些机器学习算法的实现;在这类计算中,经常需要同步large read-only数据,比
2013-02-07 01:20:14 1181
原创 Spark的standalone源码分析(三)
本文描述SparkContext实例初始化的过程中,spark后台启动的一系列的服务,以及它们之间的交互。1. SparkContext类* Main entry point for Spark functionality. A SparkContext represents the connection to a Spark cluster, and can be used to cre
2013-01-17 19:33:05 1771
原创 Spark的standalone源码分析(二)
本文主要描述Spark的standalone模式启动时候,master和work的状态transfer,并简要分析相关的代码;先上一幅状态图1. Master启动"$bin"/spark-daemon.sh start spark.deploy.master.Master --ip $SPARK_MASTER_IP --port $SPARK_MASTER_PORT --web
2012-12-31 17:01:28 1443
原创 Spark的standalone源码分析(一)
1. Spark项目介绍Spark是berkerly大学发起的一个开源项目,全部代码用scala编写,项目发起的目的是为了解决hadoop在处理迭代式计算模式上的不足;总的来说,MR的计算模式适合流式计算,但对于需要大量迭代计算的机器学习来说,hadoop的短板就很明显了,曾经用hadoop实现过k-means的算法,计算效率实在不敢恭维,大量的时间消耗在IO上了。Spark看到了这一点,通过
2012-12-31 15:01:01 1492 1
原创 graphviz画流程图
graphviz是一个开源的画图工具,可以用来画流程图和有限自动机图,用的是dot语言,非常方便简洁,实例如下:代码:digraph finite_state_machine { rankdir=LR; size="8,5" node [shape = doublecircle]; LR_0 LR_3 LR_4 LR_8; node [shape = circle]; L
2012-12-25 16:10:54 1016 1
原创 spark的logDebug模式设置
spark采用的是log4j输出运行日志,为了获取spark运行中的日志信息,可以在$SPARK_HOME的conf目录下,比如输出spark.storage package的debug运行日志,设置如下:# Set everything to be logged to the consolelog4j.rootCategory=INFO, consolelog4j
2012-12-21 13:44:19 5929
转载 Fixing Authentication refused: bad ownership or modes for directory
Fixing Authentication refused: bad ownership or modes for directoryFrom HowToGeekJump to: navigation, searchIf you get this error in your logs when trying to setup public key authenticated a
2012-12-21 09:40:03 390
原创 maven install withou test
Add the parameter -Dmaven.test.skip=true or -DskipTests=true in the command line, depending on whether you want to skip test compilation and execution or only execution. See the exa...
2010-11-05 15:05:06 84
原创 mahout 项目管理杂记
1. svn checkout 出来source code2. 在checkout 出来的目录建立eclipse工程文件 mvn -Declipse.workspace=<path-to-eclipse-workspace> eclipse:add-maven-repomvn eclipse:eclipse 3. 分别将 mahout-core ...
2010-11-05 14:36:10 99
原创 mahout如何建立eclipse工程文件
1. Checkout mahout from svn into eclipse workspace.2. Adding maven repositories to eclipse from command line-> mvn -Declipse.workspace=<path-to-eclipse-workspace> eclipse:add-maven-repo...
2010-11-05 11:03:19 81
原创 ubuntu 10.04 安装dropbox
1. 下载deb安装包,如附件1 2. 下载.dropbox-dist文件夹解压到用户home目录下 3. 在/etc/hosts文件里添加如下内容: 174.36.30.67 dropbox.com174.36.30.71 www.dropbox.com75.101.129.115 dl.dropbox.com75.101.159.15...
2010-10-14 14:20:55 105
hadoop增加heap内存
hadoop的设置文件主要在 $HADOOP_HOME/conf/hadoop_env.sh中, # Set Hadoop-specific environment variables here.# The only required environment variable is JAVA_HOME. All others are# optional. When runn...
2010-09-29 16:57:25 457
原创 maven打成可执行jar包和添加自定义jar包
mahout项目是采用maven进行管理的,maven和ant一样都是项目管理的工具,它的特点在与对于第三方jar包的管理。比如项目中需要junit的jar包,只需要在pom.xml文件中加入如下代码即可: <dependency> <groupId>junit</groupId> <arti...
2010-09-27 15:38:32 521
原创 java 线程同步 tips zz
因此,关于线程同步,需要牢牢记住的第一点是:线程同步就是线程排队。同步就是排队。线程同步的目的就是避免线程“同步”执行。这可真是个无聊的绕口令。 关于线程同步,需要牢牢记住的第二点是 “共享”这两个字。只有共享资源的读写访问才需要同步。如果不是共享资源,那么就根本没有同步的必要。 关于线程同步,需要牢牢记住的第三点是,只有“变量”才需要同步访问。如果共享的资源是固定不变的,那么就相当于“常...
2010-06-28 14:12:06 94
原创 java中的数据类型
在java中有两种数据类型,值类型和引用类型。像一些基本的数据类型如:int ,float,double,byte等都是值类型,而String,还有‘类’都是引用类型,其中数组也是引用类型。...
2010-06-28 11:40:57 86
weka的StringToWordVector类解析
weka的StringToWordVector类可以将给定的文档格式的内容转换为vms模型的内容,而后者是文本分类必须的模块。按照weka要求,生成arff格式的文本: @relation D__java_weka_data@attribute text string@attribute class {test1,test2,test3}@data'here we...
2010-06-20 18:01:24 797
Entropy based transportation problem use geometric programming method
2010-12-04
online advertising 在线广告
2010-11-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人