TF-IDF

##1、 第 j 篇 文 档 中 第 i 个 词 语 的 t f i j 计 算 公 式 为 : 第j篇文档中第i个词语的tf_{ij}计算公式为: jitfij

t f i j = n i j ∑ k n k j tf_{ij}=\frac{n_{ij}}{\sum_{k} n_{kj}} tfij=knkjnij

  • n i j 是 指 词 t i 在 d j 文 档 中 出 现 的 次 数 , 分 母 表 示 文 档 d j 中 所 有 词 出 现 之 和 。 n_{ij}是指词t_{i}在d_{j}文档中出现的次数,分母表示文档d_{j}中所有词出现之和。 nijtidjdj

##2、 i d f 的 计 算 公 式 为 : idf的计算公式为: idf

i d f i = l o g ∣ D ∣ ∣ { j : t i ∈ d j } ∣ + 1 idf_{i}=log\frac{|D|}{|\{j:t_{i}\in d_{j}\}|+1} idfi=log{j:tidj}+1D

  • ∣ D ∣ 语 料 库 中 文 件 总 数 |D|语料库中文件总数 D

  • ∣ { j : t i ∈ d j } ∣ 是 包 含 词 语 t i 的 文 件 数 目 , 如 果 该 词 语 不 在 该 预 料 库 中 除 数 就 为 0 , 因 此 + 1 防 止 除 数 为 0 。 |\{j:t_{i}\in d_{j}\}|是包含词语t_{i}的文件数目,如果该词语不在该预料库中除数就为0,因此+1防止除数为0。 {j:tidj}ti0+10
    ##3、 最 终 计 第 j 篇 文 档 中 第 i 个 词 语 的 t f i d f i j 计 算 公 式 为 : 最终计第j篇文档中第i个词语的tfidf_{ij}计算公式为: jitfidfij
    t f i d f i j = t f i f × i d f i tfidf_{ij}=tf_{if} \times idf_{i} tfidfij=tfif×idfi

  • 某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语

注: i   代 表 词 的 编 号 , j   代 表 文 档 的 编 号 i\ 代表词的编号,j\ 代表文档的编号 i j 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值