- 博客(3)
- 收藏
- 关注
原创 Hadoop 2.6 日志文件和MapReduce的log文件研究心得
学习演练Hadoop 2.6有一段日子了。现在才大致搞清楚了系统里面各个log的位置和功能,在这里总结一下。网上的资料并不丰富,甚至Google出来的结果也不是很满意,或许这个是太简单了,牛人都不屑来写。也可能是各个公司藏着掖着的东西。Hadoop 2.6包含两个大部分:DFS和Yarn,而Yarn里面又包含在Resource Manager的JVM中运行的部分和在Node Manag
2015-04-29 18:30:20 14078 3
原创 两个Mapper初始化输出类错误的心得:Unable to initialize any output collector
今天在跑两个关系运算的代码,结果接连两次都出现了同样的一个错误:Error: java.io.IOException: Unable to initialize any output collector at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:412) at org.apache.h
2015-04-20 17:17:13 9126 1
原创 一个有点意思的问题,如何快速收敛超大的KMeans
被一个牛人问道了这个问题:超亿个节点,进行KMeans的聚类,每次迭代都要进行K×亿的运算,如何能让这个迭代快速的收敛?当场晕倒,从来没有考虑过这些问题,基础的数据挖据算法不考虑超大级别的运算问题。回来想了想,再看看Mahout的KMeans的实现方法,觉得可以这么解决.1. 第一次迭代的时候,正常进行,选取K个初始点,然后计算所有节点到这些K的距离,再分到不同
2015-04-09 13:46:52 2710 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人