自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (6)
  • 收藏
  • 关注

原创 Spark的standalone源码分析(五)

承接上文,本节继续介绍broadcast机制中的BitTorrentBroadcast;3. BitTorrentBroadcastBitTorrentBroadcast即采用BitTorrent的方式来广播变量;大致流程如下:1. 首先,work节点通过GuideMultipleRequests服务向master节点获得selectedSources;master节点

2013-02-09 17:49:09 715

原创 Spark的standalone源码分析(四)

承接上文,继续分析sparkcontext初始化中开启的broadcast服务,文中部分内容参考论文“Performance and Scalability of Broadcast in Spark ”;2.2 BroadcastManager相比hadoop,spark的优势在于迭代计算,尤其是一些机器学习算法的实现;在这类计算中,经常需要同步large read-only数据,比

2013-02-07 01:20:14 1174

原创 Spark的standalone源码分析(三)

本文描述SparkContext实例初始化的过程中,spark后台启动的一系列的服务,以及它们之间的交互。1. SparkContext类* Main entry point for Spark functionality. A SparkContext represents the connection to a Spark cluster, and can be used to cre

2013-01-17 19:33:05 1760

原创 Spark的standalone源码分析(二)

本文主要描述Spark的standalone模式启动时候,master和work的状态transfer,并简要分析相关的代码;先上一幅状态图1. Master启动"$bin"/spark-daemon.sh start spark.deploy.master.Master --ip $SPARK_MASTER_IP --port $SPARK_MASTER_PORT --web

2012-12-31 17:01:28 1436

原创 Spark的standalone源码分析(一)

1. Spark项目介绍Spark是berkerly大学发起的一个开源项目,全部代码用scala编写,项目发起的目的是为了解决hadoop在处理迭代式计算模式上的不足;总的来说,MR的计算模式适合流式计算,但对于需要大量迭代计算的机器学习来说,hadoop的短板就很明显了,曾经用hadoop实现过k-means的算法,计算效率实在不敢恭维,大量的时间消耗在IO上了。Spark看到了这一点,通过

2012-12-31 15:01:01 1487 1

原创 graphviz画流程图

graphviz是一个开源的画图工具,可以用来画流程图和有限自动机图,用的是dot语言,非常方便简洁,实例如下:代码:digraph finite_state_machine { rankdir=LR; size="8,5" node [shape = doublecircle]; LR_0 LR_3 LR_4 LR_8; node [shape = circle]; L

2012-12-25 16:10:54 1009 1

原创 spark的logDebug模式设置

spark采用的是log4j输出运行日志,为了获取spark运行中的日志信息,可以在$SPARK_HOME的conf目录下,比如输出spark.storage package的debug运行日志,设置如下:# Set everything to be logged to the consolelog4j.rootCategory=INFO, consolelog4j

2012-12-21 13:44:19 5908

转载 Fixing Authentication refused: bad ownership or modes for directory

Fixing Authentication refused: bad ownership or modes for directoryFrom HowToGeekJump to: navigation, searchIf you get this error in your logs when trying to setup public key authenticated a

2012-12-21 09:40:03 382

原创 maven install withou test

  Add the parameter -Dmaven.test.skip=true or -DskipTests=true in the command line, depending on whether you want to skip test compilation and execution or only execution. See the exa...

2010-11-05 15:05:06 77

原创 mahout 项目管理杂记

1. svn checkout 出来source code2. 在checkout 出来的目录建立eclipse工程文件 mvn -Declipse.workspace=<path-to-eclipse-workspace> eclipse:add-maven-repomvn eclipse:eclipse 3. 分别将    mahout-core  ...

2010-11-05 14:36:10 96

原创 mahout如何建立eclipse工程文件

1.  Checkout mahout from svn into eclipse workspace.2.  Adding maven repositories to eclipse from command line-> mvn -Declipse.workspace=<path-to-eclipse-workspace> eclipse:add-maven-repo...

2010-11-05 11:03:19 75

原创 ubuntu 10.04 安装dropbox

  1. 下载deb安装包,如附件1 2. 下载.dropbox-dist文件夹解压到用户home目录下 3. 在/etc/hosts文件里添加如下内容: 174.36.30.67 dropbox.com174.36.30.71 www.dropbox.com75.101.129.115 dl.dropbox.com75.101.159.15...

2010-10-14 14:20:55 102

hadoop增加heap内存

hadoop的设置文件主要在 $HADOOP_HOME/conf/hadoop_env.sh中, # Set Hadoop-specific environment variables here.# The only required environment variable is JAVA_HOME. All others are# optional. When runn...

2010-09-29 16:57:25 440

原创 maven打成可执行jar包和添加自定义jar包

mahout项目是采用maven进行管理的,maven和ant一样都是项目管理的工具,它的特点在与对于第三方jar包的管理。比如项目中需要junit的jar包,只需要在pom.xml文件中加入如下代码即可:  <dependency> <groupId>junit</groupId> <arti...

2010-09-27 15:38:32 512

原创 java 线程同步 tips zz

因此,关于线程同步,需要牢牢记住的第一点是:线程同步就是线程排队。同步就是排队。线程同步的目的就是避免线程“同步”执行。这可真是个无聊的绕口令。 关于线程同步,需要牢牢记住的第二点是 “共享”这两个字。只有共享资源的读写访问才需要同步。如果不是共享资源,那么就根本没有同步的必要。 关于线程同步,需要牢牢记住的第三点是,只有“变量”才需要同步访问。如果共享的资源是固定不变的,那么就相当于“常...

2010-06-28 14:12:06 91

原创 java中的数据类型

在java中有两种数据类型,值类型和引用类型。像一些基本的数据类型如:int ,float,double,byte等都是值类型,而String,还有‘类’都是引用类型,其中数组也是引用类型。...

2010-06-28 11:40:57 76

weka的StringToWordVector类解析

weka的StringToWordVector类可以将给定的文档格式的内容转换为vms模型的内容,而后者是文本分类必须的模块。按照weka要求,生成arff格式的文本: @relation D__java_weka_data@attribute text string@attribute class {test1,test2,test3}@data'here we...

2010-06-20 18:01:24 781

关联规则挖掘高效的关联规则算法实现

关联规则挖掘高效的关联规则算法实现 关联规则挖掘高效的关联规则算法实现 关联规则挖掘高效的关联规则算法实现

2011-04-30

关联规则挖掘高效的关联规则算法实现

高效的关联规则算法实现 高效的关联规则算法实现 高效的关联规则算法实现

2011-03-21

Entropy based transportation problem use geometric programming method

Entropy based transportation problem use geometric programming method,Entropy based transportation problem use geometric programming method

2010-12-04

online advertising 在线广告

online advertising 在线广告 online advertising 在线广告online advertising 在线广告

2010-11-29

行为定向的数据挖掘基本的知识介绍

行为定向的数据挖掘,基本的知识介绍,行为定向的数据挖掘,基本的知识介绍

2010-11-01

Large Scale Multiple Kernel Learning

Support Vector Machine Kernel Learning

2009-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除