n-gram
此处的TF和IDF的公式,都是sklearn中的tfidf使用的公式。和最原始的公式会有些出入。并且根据一些参数的不同而不同。
名词的解释:
corpus:指所有documents的集合
documents:词语的有序排列。可以是一篇文章、一个句子之类。
词频(TF)
在一份给定的文件里,词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定文件里的词语 t 来说,
tfd,t=nd,t∑knd,k
其中 t