- 博客(12)
- 资源 (8)
- 收藏
- 关注
原创 slave机器重复尝试连接ResourceManager
2014-03-31 13:39:47,087 INFO org.apache.hadoop.yarn.client.RMProxy: Connecting to ResourceManager at /0.0.0.0:80312014-03-31 13:39:48,149 INFO org.apache.hadoop.ipc.Client: Retrying connect to server
2014-03-31 14:18:08 8504
原创 关于Hadoop的shuffle
我们知道每个reduce task输入的key都是按照key排序的。 但是每个map的输出只是简单的key-value而非key-valuelist,所以洗牌的工作就是将map输出转化为reducer的输入的过程。 在map结束之后shuffle要做的事情: map的输出不是简单的写入本地文件,而是更多的利用内存缓存和预排序工作,以提高效率。io.so
2014-03-27 10:55:44 799
转载 Hadoop计算中的Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽
2014-03-27 10:51:44 941
原创 Hadoop传递参数的方法总结
写MapReduce程序通常要传递各种各样的参数,选择合适的方式来传递参数既能提高工作效率,也可以避免bug的产生。根据参数的大小,可以粗略的分为以下几种。最直接的方式就是使用Configuration的各种set方法,对于基本数据类型都有很好的支持,比如传递kmeans聚类算法的中心点个数。如何传递一个对象型参数?话说所有的对象都是由基本类型构建的,所以我们可以覆盖这个对象的toStri
2014-03-26 11:35:48 2244
原创 数据分析,展现与R语言学习笔记(2)
对a1进行直方图分析,a1为一个向量> hist(a$a1)绘制散点图> plot(a$a2,a$a3)列联表分析> table(a$a1) 68 71 72 74 75 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 1 1 3 1 2 1 3
2014-03-21 17:27:32 1899
原创 数据分析,展现与R语言学习笔记(1)
> x1=c(1,2,3,4,5,6,7,8,9)//c()=产生一个向量> x1[1] 1 2 3 4 5 6 7 8 9> mode(x1)[1] "numeric"> length(x1)[1] 9> rbind(x1,x1)//整合连个向量,形成一个矩阵 [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]x1 1 2
2014-03-21 10:59:59 2065
原创 RHadoop安装
环境:ubuntu12.04 64bitR2.15.3JDK1.6.x1.安装R,安装JDK2.安装rJava,reshape2等第一步,将java在系统中的相关配置传给Rhadoop@ubuntu:~/Desktop/rJava$ R CMD javareconfJava interpreter : /usr/java/jdk1.6.0_45/j
2014-03-19 23:20:42 2164
原创 R2.15.3安装
1.更新源hadoop@ubuntu:~$ sh -c "echo deb http://mirror.bjtu.edu.cn/cran/bin/linux/ubuntu precise/ >>/etc/apt/sources.list"sh: 1: cannot create /etc/apt/sources.list: Permission deniedhadoop@ubuntu:~$
2014-03-19 22:05:43 2383
原创 ubuntu12.04 更新完源 出现 GPG error
W: GPG error: http://mirror.bjtu.edu.cn precise/ Release: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY 51716619E084DAB9W: Failed to fetch http://c...
2014-03-19 21:53:42 4221
原创 eclipse运行WordCount程序记录
1.新建Map/Reduce项目2.将hadoop-2.2.0-src/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java文件夹下的org子文件夹整个拷贝到eclipse项目的src目录下。3.wordcount类在org.apache.hadoop.examples包下4.run->run configur
2014-03-05 17:17:20 1939
原创 hadoop eclipse插件
Location name:随便取个名字Map/Reduce Master:Job Tracker的IP和端口,根据mapred-site.xml中配置的mapred.job.tracker填写DFS Master:Name Node的IP和端口,根据core-site.xml中配置的fs.default.name填写
2014-03-05 16:16:56 1169
原创 Mahout中mahout-examples-0.9-job.jar例子运行记录
1.下载数据样本http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data2.将此数据文件拷贝到$MAHOUT_HOME3.启动hadoopstart-all.sh4.hadoop fs -mkdir testdata5.将数据上传到hdfshadoop
2014-03-04 16:36:30 4051
Exactly Once Delivery and Transactional Messaging in Kafka
2019-02-27
快学Scala(Java核心技术的作者最新力作)
2014-09-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人