自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

infovisthinker的专栏

技术杂谈,喜欢数据分析,特别是文本分析。信息可视化科普。

  • 博客(3)
  • 收藏
  • 关注

原创 Hadoop 2.6 日志文件和MapReduce的log文件研究心得

学习演练Hadoop 2.6有一段日子了。现在才大致搞清楚了系统里面各个log的位置和功能,在这里总结一下。网上的资料并不丰富,甚至Google出来的结果也不是很满意,或许这个是太简单了,牛人都不屑来写。也可能是各个公司藏着掖着的东西。Hadoop 2.6包含两个大部分:DFS和Yarn,而Yarn里面又包含在Resource Manager的JVM中运行的部分和在Node Manag

2015-04-29 18:30:20 14077 3

原创 两个Mapper初始化输出类错误的心得:Unable to initialize any output collector

今天在跑两个关系运算的代码,结果接连两次都出现了同样的一个错误:Error: java.io.IOException: Unable to initialize any output collector at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:412) at org.apache.h

2015-04-20 17:17:13 9125 1

原创 一个有点意思的问题,如何快速收敛超大的KMeans

被一个牛人问道了这个问题:超亿个节点,进行KMeans的聚类,每次迭代都要进行K×亿的运算,如何能让这个迭代快速的收敛?当场晕倒,从来没有考虑过这些问题,基础的数据挖据算法不考虑超大级别的运算问题。回来想了想,再看看Mahout的KMeans的实现方法,觉得可以这么解决.1. 第一次迭代的时候,正常进行,选取K个初始点,然后计算所有节点到这些K的距离,再分到不同

2015-04-09 13:46:52 2710 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除