2015年04月_infovisthinker

12月 11月 07月 06月 04月 03月

原创 Hadoop 2.6 日志文件和MapReduce的log文件研究心得

学习演练Hadoop 2.6有一段日子了。现在才大致搞清楚了系统里面各个log的位置和功能，在这里总结一下。网上的资料并不丰富，甚至Google出来的结果也不是很满意，或许这个是太简单了，牛人都不屑来写。也可能是各个公司藏着掖着的东西。Hadoop 2.6包含两个大部分：DFS和Yarn，而Yarn里面又包含在Resource Manager的JVM中运行的部分和在Node Manag

2015-04-29 18:30:20 14077 3

原创两个Mapper初始化输出类错误的心得：Unable to initialize any output collector

今天在跑两个关系运算的代码，结果接连两次都出现了同样的一个错误：Error: java.io.IOException: Unable to initialize any output collector at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:412) at org.apache.h

2015-04-20 17:17:13 9125 1

原创一个有点意思的问题，如何快速收敛超大的KMeans

被一个牛人问道了这个问题：超亿个节点，进行KMeans的聚类，每次迭代都要进行K×亿的运算，如何能让这个迭代快速的收敛？当场晕倒，从来没有考虑过这些问题，基础的数据挖据算法不考虑超大级别的运算问题。回来想了想，再看看Mahout的KMeans的实现方法，觉得可以这么解决.1. 第一次迭代的时候，正常进行，选取K个初始点，然后计算所有节点到这些K的距离，再分到不同

2015-04-09 13:46:52 2710 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Hadoop 2.6 日志文件和MapReduce的log文件研究心得

原创 两个Mapper初始化输出类错误的心得：Unable to initialize any output collector

原创 一个有点意思的问题，如何快速收敛超大的KMeans

空空如也

空空如也

原创两个Mapper初始化输出类错误的心得：Unable to initialize any output collector

原创一个有点意思的问题，如何快速收敛超大的KMeans