本文记录了最近在做中文热点词汇抽取的过程。
首先,需要一个中文分词器,我选择了IKAnalyzer。第二,为了处理同义词,使用了Lucene。第三,考虑到数据量,使用了MapReduce。
经过IKAnalyzer和Lucene的处理,测试文本将被切分成无同义词的词的集合,然后再用MapReduce对各个词做词频统计,和WordCount的过程一样,这就是第一个job做的事情。第一个job结束后,得到了一个中间结果,每行由(词 词频)的键值对组成,按照词的字典序排序。
中间结果离理想的目标还差一步,我们希望结果可以按照词频来降序排列,因此还需要第二个job,使用InverseMapper,将中间结果作为输入,然后调换中间结果的键和值,变为键值对(词频 词),再自定义一个IntWritableDescComparator来实现降序的效果,最后经过reduce,得到的结果就是按照词频降序排列的。
本文没有对MapReduce的结果做全排序,这是由于在当前环境下,我们只需要top X 的热点词汇,则可以简化处理这个问题,假设有N个reduce,产生N份结果文件,只要将N份文件的top X 行取出,再进行统一比较挑出最终的top X 即可。
下面依次说明。
1. IKAnalyzer
采用智能分词模式。
另外,为了去除无关的词,自定义了stopword.dic。IKAnalyzer.cfg.xml中添加自定义的停用词字典文件名,并将IKAnalyzer.cfg.xml,