热点词汇抽取:IKAnalyzer + Lucene + MapReduce

本文介绍了如何结合IKAnalyzer、Lucene和MapReduce进行中文热点词汇的抽取。通过IKAnalyzer进行智能分词,Lucene处理同义词,MapReduce进行词频统计和排序,最终得到按词频降序排列的热点词汇列表。
摘要由CSDN通过智能技术生成

本文记录了最近在做中文热点词汇抽取的过程。

首先,需要一个中文分词器,我选择了IKAnalyzer。第二,为了处理同义词,使用了Lucene。第三,考虑到数据量,使用了MapReduce。

经过IKAnalyzer和Lucene的处理,测试文本将被切分成无同义词的词的集合,然后再用MapReduce对各个词做词频统计,和WordCount的过程一样,这就是第一个job做的事情。第一个job结束后,得到了一个中间结果,每行由(词  词频)的键值对组成,按照词的字典序排序。

中间结果离理想的目标还差一步,我们希望结果可以按照词频来降序排列,因此还需要第二个job,使用InverseMapper,将中间结果作为输入,然后调换中间结果的键和值,变为键值对(词频  词),再自定义一个IntWritableDescComparator来实现降序的效果,最后经过reduce,得到的结果就是按照词频降序排列的。

本文没有对MapReduce的结果做全排序,这是由于在当前环境下,我们只需要top X 的热点词汇,则可以简化处理这个问题,假设有N个reduce,产生N份结果文件,只要将N份文件的top X 行取出,再进行统一比较挑出最终的top X 即可。

下面依次说明。


1. IKAnalyzer

    采用智能分词模式。

    另外,为了去除无关的词,自定义了stopword.dic。IKAnalyzer.cfg.xml中添加自定义的停用词字典文件名,并将IKAnalyzer.cfg.xml,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值