##1、 第 j 篇 文 档 中 第 i 个 词 语 的 t f i j 计 算 公 式 为 : 第j篇文档中第i个词语的tf_{ij}计算公式为: 第j篇文档中第i个词语的tfij计算公式为:
t f i j = n i j ∑ k n k j tf_{ij}=\frac{n_{ij}}{\sum_{k} n_{kj}} tfij=∑knkjnij
- n i j 是 指 词 t i 在 d j 文 档 中 出 现 的 次 数 , 分 母 表 示 文 档 d j 中 所 有 词 出 现 之 和 。 n_{ij}是指词t_{i}在d_{j}文档中出现的次数,分母表示文档d_{j}中所有词出现之和。 nij是指词ti在dj文档中出现的次数,分母表示文档dj中所有词出现之和。
##2、 i d f 的 计 算 公 式 为 : idf的计算公式为: idf的计算公式为:
i d f i = l o g ∣ D ∣ ∣ { j : t i ∈ d j } ∣ + 1 idf_{i}=log\frac{|D|}{|\{j:t_{i}\in d_{j}\}|+1} idfi=log∣{j:ti∈dj}∣+1∣D∣
-
∣ D ∣ 语 料 库 中 文 件 总 数 |D|语料库中文件总数 ∣D∣语料库中文件总数
-
∣ { j : t i ∈ d j } ∣ 是 包 含 词 语 t i 的 文 件 数 目 , 如 果 该 词 语 不 在 该 预 料 库 中 除 数 就 为 0 , 因 此 + 1 防 止 除 数 为 0 。 |\{j:t_{i}\in d_{j}\}|是包含词语t_{i}的文件数目,如果该词语不在该预料库中除数就为0,因此+1防止除数为0。 ∣{j:ti∈dj}∣是包含词语ti的文件数目,如果该词语不在该预料库中除数就为0,因此+1防止除数为0。
##3、 最 终 计 第 j 篇 文 档 中 第 i 个 词 语 的 t f i d f i j 计 算 公 式 为 : 最终计第j篇文档中第i个词语的tfidf_{ij}计算公式为: 最终计第j篇文档中第i个词语的tfidfij计算公式为:
t f i d f i j = t f i f × i d f i tfidf_{ij}=tf_{if} \times idf_{i} tfidfij=tfif×idfi -
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语
注: i 代 表 词 的 编 号 , j 代 表 文 档 的 编 号 i\ 代表词的编号,j\ 代表文档的编号 i 代表词的编号,j 代表文档的编号