java 文本分析 关键词提取_文本关键词提取算法总结

本文介绍了多种文本关键词提取算法,包括TF-IDF、基于语义的统计语言模型、TF-IWF、分离模型、高维聚类技术和基于语义的SKE算法。这些方法各有特点,如TF-IDF适用于简单特征提取,而语义理解的算法更能体现文档主题。关键词提取在信息检索、文本分类等领域有着重要作用。
摘要由CSDN通过智能技术生成

1.TF-IDF

昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类。我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的词频,而不是本文章内出现的次数,IDF还是在所有文章里出现的倒文档频率。

原理:1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数

2、遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值

3、用一个字典(key是词,value是TF*IDF权重)来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词。

2.基于语义的统计语言模型

文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。

采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。

文章关键词提取组件的主要特色在于:

1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档;

2、处理精准:Top N的分析结果往往能反映出该篇文章的主干特征;

3、精准排序:关键词按照影响权重排序,可以输出权重值;

4、开放式接口:文章关键词提取组件作为TextParser的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值