学习Hadoop都免不了WordCount,但是都是最简单的例子,而且都是以空格为划分的英文词频的统计,相比于中文,英文的统计显得简单很多,因为中文涉及到很多语义及分词的不同,通常不好统计中文词频,即使是现在的技术,也没有完全能符合人们标准的中文词频统计工具出现,不过现阶段还是有可以使用的工具的,比如IK Analyzer,今天就来尝试一下。
先感谢看到的博客指导:http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html
1,实验环境
hadoop 1.2.1
java 1.7
node:only one
2,数据准备
这里采用的完结篇小说《凡人修仙传》,大概20MB,个人爱好。