1. 写在前面
做过舆情项目或文本内容情感分析的大家都知道,我们要从大量的文本内容中提取核心短语或者关键词!最近我们的爬虫项目中正好遇到了这么一个需求,我们收集了大量的评论内容文本数据,需要从中分析提炼关键词(最好能够找带情感色彩来提炼更佳)
本次测试的评论短文本内容,如下所示:
1、一星都不想给,动不动就登录不上,啥垃圾玩意儿!
可以看到以上评论内容带着强烈的情绪,应该是很容易提炼出有价值的关键词!
2. TextRank关键词提取算法
TextRank通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词
TextRank是一种基于随机游走的关键词提取算法,考虑到不同词对可能有不同的共