hanlp 词频统计_数据挖掘：基于Spark+HanLP实现影视评论关键词抽取(1)

最新推荐文章于 2023-03-08 21:27:19 发布

蜈蚣侠

最新推荐文章于 2023-03-08 21:27:19 发布

阅读量756

点赞数

文章标签： hanlp 词频统计

本文链接：https://blog.csdn.net/weixin_42511206/article/details/111897283

版权

本文介绍了如何利用Spark处理大量影视评论数据，通过HanLP、LTP和AC双数组进行分词，再结合TextRank、互信息和TF-IDF算法抽取关键词。项目初期，效果需迭代优化。主要技术选型包括HanLP的词典和腾讯的汉语词，以及LTP和AC双数组分词服务。代码中详细展示了数据处理和关键词提取的流程。

摘要由CSDN通过智能技术生成

1. 背景

近日项目要求基于爬取的影视评论信息，抽取影视的关键字信息。考虑到影视评论数据量较大，因此采用Spark处理框架。关键词提取的处理主要包含分词+算法抽取两部分。目前分词工具包较为主流的，包括哈工大的LTP以及HanLP，而关键词的抽取算法较多，包括TF-IDF、TextRank、互信息等。本次任务主要基于LTP、HanLP、Ac双数组进行分词，采用TextRank、互信息以及TF-IDF结合的方式进行关键词抽取。

说明：本项目刚开始接触，因此效果层面需迭代调优。

2. 技术选型

(1) 词典

1) 基于HanLP项目提供的词典数据，具体可参见HanLP的github。

2) 考虑到影视的垂直领域特性，引入腾讯的嵌入的汉语词，参考该地址。

(2) 分词

1) LTP分词服务：基于Docker Swarm部署多副本集服务，通过HTTP协议请求，获取分词结果(部署方法可百度); 也可以直接在本地加载，放在内存中调用，效率更高(未尝试)

2) AC双数组：基于AC双数组，采用最长匹配串，采用HanLP中的AC双数组分词器

(3) 抽取

1) 经典的TF-IDF：基于词频统计实现

2) TextRank：借鉴于PageRank算法，基于HanLP提供的接口

3) 互信息：基于HanLP提供的接口