tf-idf(term frequency–inverse document frequency)含义
在文本挖掘和自然语言处理方面,tf-idf是非常重要也非常常用的算法。tf:词频,是指某个词在某篇文章中出现的频率。比如,某篇文章共1000个词汇,其中hello出现5次,那么其tf=5/1000。tf最直观的理解就是,当一个词在本文中出现的频率越高,则这篇文章的主题和这个词的相关可能性越大。这种直观理解是否准确呢?可以说相当不准确。举例来说,一篇文章中出现最多的字词可能是你、我、他、的、...
转载
2020-01-06 16:45:44 ·
681 阅读 ·
0 评论