1.词频
(摘自阮一峰博客,参见附录参考)
如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行”词频”(Term Frequency,缩写为TF)统计。考虑到文章有长短之分,为了便于不同文章的比较,进行”词频”标准化。一般分母设置为文章总的词数或者出现最频繁的那个词的出现次数。比如:
TF=某个词在文中出现次数文章中总词
(摘自阮一峰博客,参见附录参考)
如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行”词频”(Term Frequency,缩写为TF)统计。考虑到文章有长短之分,为了便于不同文章的比较,进行”词频”标准化。一般分母设置为文章总的词数或者出现最频繁的那个词的出现次数。比如: