关键词提取_tf_idf

最新推荐文章于 2021-01-21 19:04:28 发布

weixin_34235371

最新推荐文章于 2021-01-21 19:04:28 发布

阅读量109

点赞数

原文链接：http://www.cnblogs.com/hapyygril/p/9924520.html

版权

TF-IDF(term frequency-inverse document frequency)-词频-逆文档频率

TF:统计一个词在文档中出现的频次，次数越多，表达能力越强

IDF:统计一个词在文档集的多少篇文档中出现，一个词在越少的文档中出现，则对该文档的区分能力就越强

词i在文档j中出现的概率：tf（word）=（word在文档中出现的次数）/(文档总词数）

idf（word）=log【文档集中的总文档数/(1+出现词i的文档数量）】

分母加1是拉普拉斯平滑，避免有新的词在有语料库中没有出现过导致分母为0

tf-idf=tf * idf

#优化思路

每个词的词性，出现的位置

转载于:https://www.cnblogs.com/hapyygril/p/9924520.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注