java 文本分析关键词提取_文本关键词提取算法总结

最新推荐文章于 2024-03-12 09:00:00 发布

jkup192

最新推荐文章于 2024-03-12 09:00:00 发布

阅读量3.2k

点赞数

文章标签： java 文本分析关键词提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35049095/article/details/114715243

版权

本文介绍了多种文本关键词提取算法，包括TF-IDF、基于语义的统计语言模型、TF-IWF、分离模型、高维聚类技术和基于语义的SKE算法。这些方法各有特点，如TF-IDF适用于简单特征提取，而语义理解的算法更能体现文档主题。关键词提取在信息检索、文本分类等领域有着重要作用。

摘要由CSDN通过智能技术生成

1.TF-IDF

昨天给大家演示简单的文本聚类，但要给每个聚类再提取一两个关键词用于表示该聚类。我们还是用TFIDF算法来做，因为这是比较简单的提取特征算法，不过这里的TF是指某词在本聚类内所有文章的词频，而不是本文章内出现的次数，IDF还是在所有文章里出现的倒文档频率。

原理：1、先给本聚类内的所有文档进行分词，然后用一个字典保存每个词出现的次数

2、遍历每个词，得到每个词在所有文档里的IDF值，和在本聚类内出现的次数(TF)相乘的值

3、用一个字典(key是词，value是TF*IDF权重)来保存所有的词信息，然后按value对字典排序，最后取权重排名靠前的几个词作为关键词。

2.基于语义的统计语言模型

文章关键词提取基础件能够在全面把握文章的中心思想的基础上，提取出若干个代表文章语义内容的词汇或短语，相关结果可用于精化阅读、语义查询和快速匹配等。

采用基于语义的统计语言模型，所处理的文档不受行业领域限制，且能够识别出最新出现的新词语，所输出的词语可以配以权重。

文章关键词提取组件的主要特色在于：

1、速度快：可以处理海量规模的网络文本数据，平均每小时处理至少50万篇文档；

2、处理精准：Top N的分析结果往往能反映出该篇文章的主干特征；

3、精准排序：关键词按照影响权重排序，可以输出权重值；

4、开放式接口：文章关键词提取组件作为TextParser的一部分，采用灵活的开发接口，可以方便地融入到用户的业务系统中，可以支持各种操作系统，各类调用语言。</

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。