热点词汇抽取：IKAnalyzer + Lucene + MapReduce

最新推荐文章于 2017-02-08 15:54:46 发布

慢悠悠的熊仔

最新推荐文章于 2017-02-08 15:54:46 发布

阅读量882

点赞数

分类专栏： hadoop IKAnalyzer lucene

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BerylFanZi/article/details/50836175

版权

本文介绍了如何结合IKAnalyzer、Lucene和MapReduce进行中文热点词汇的抽取。通过IKAnalyzer进行智能分词，Lucene处理同义词，MapReduce进行词频统计和排序，最终得到按词频降序排列的热点词汇列表。

摘要由CSDN通过智能技术生成

本文记录了最近在做中文热点词汇抽取的过程。

首先，需要一个中文分词器，我选择了IKAnalyzer。第二，为了处理同义词，使用了Lucene。第三，考虑到数据量，使用了MapReduce。

经过IKAnalyzer和Lucene的处理，测试文本将被切分成无同义词的词的集合，然后再用MapReduce对各个词做词频统计，和WordCount的过程一样，这就是第一个job做的事情。第一个job结束后，得到了一个中间结果，每行由（词词频）的键值对组成，按照词的字典序排序。

中间结果离理想的目标还差一步，我们希望结果可以按照词频来降序排列，因此还需要第二个job，使用InverseMapper，将中间结果作为输入，然后调换中间结果的键和值，变为键值对（词频词），再自定义一个IntWritableDescComparator来实现降序的效果，最后经过reduce，得到的结果就是按照词频降序排列的。

本文没有对MapReduce的结果做全排序，这是由于在当前环境下，我们只需要top X 的热点词汇，则可以简化处理这个问题，假设有N个reduce，产生N份结果文件，只要将N份文件的top X 行取出，再进行统一比较挑出最终的top X 即可。

下面依次说明。

1. IKAnalyzer

采用智能分词模式。

另外，为了去除无关的词，自定义了stopword.dic。IKAnalyzer.cfg.xml中添加自定义的停用词字典文件名，并将IKAnalyzer.cfg.xml，

最低0.47元/天解锁文章

慢悠悠的熊仔

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

慢悠悠的熊仔 CSDN认证博客专家 CSDN认证企业博客

码龄13年

8: 原创

62万+: 周排名

93万+: 总排名

2万+: 访问

: 等级

374: 积分

2: 粉丝

9: 获赞

2: 评论

15: 收藏

私信

关注

热门文章

分类专栏

java学习 2篇
HBase 2篇
Play! 1篇
前端 1篇
hadoop 2篇
lucene 1篇
IKAnalyzer 1篇
远程管理 1篇
eclipse 1篇

最新评论

Phoenix jdbc 插入数据
SpringStrong1: 加上connection.commit()后会报错 1.Caused by: org.apache.flink.runtime.JobException: Recovery is suppressed by NoRestartBackoffTimeStrategy 2.Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.hbase.KeyValueUtil.length(Lorg/apache/hadoop/hbase/Cell;)I 怎么办球球了
SQL on HBase -- phoenix 之分页查询
陶尘封: 这样做只能实现一般的分页查询，如果我从第1页一下子跳跃到第10页应该怎么做？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。