【评论内容关键词提取】多种主流提取算法与大模型测试

本文对比了多种关键词提取算法,包括TextRank、TFIDF、jionlp、sklearn的TF-IDF和CountVectorizer、Rake算法,以及hanlp的情感分析。此外,还探讨了大语言模型在关键词提取中的应用,如GPT。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 写在前面

  做过舆情项目或文本内容情感分析的大家都知道,我们要从大量的文本内容中提取核心短语或者关键词!最近我们的爬虫项目中正好遇到了这么一个需求,我们收集了大量的评论内容文本数据,需要从中分析提炼关键词(最好能够找带情感色彩来提炼更佳


在这里插入图片描述


本次测试的评论短文本内容,如下所示:

1、一星都不想给,动不动就登录不上,啥垃圾玩意儿!

可以看到以上评论内容带着强烈的情绪,应该是很容易提炼出有价值的关键词!

2. TextRank关键词提取算法

  TextRank通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词

TextRank是一种基于随机游走的关键词提取算法,考虑到不同词对可能有不同的共

评论 36
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

吴秋霖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值