td-idf理解

定义

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。

公式(个人理解版)

以二维向量距离,更多维向量以此推类

分子为向量的点乘,分母为距离

t f = 文 档 d 中 词 w 出 现 的 次 数 tf=文档d中词w出现的次数 tf=dw

i d f = log ⁡ N N ( w ) ( N 为 文 档 总 量 , N ( w ) 为 这 个 词 出 现 在 多 少 文 档 中 ) idf=\log \frac{N}{ N(w)}(N为文档总量,N(w)为这个词出现在多少文档中) idf=logN(w)NNN(w)

T F I D F = t f × i d f TFIDF=tf \times idf TFIDF=tf×idf

个人理解

降低高频词如(的,了)等在全文中相似度的比重,增强出现频次小的词对相似度结果的影响

举例说明

简单举例,三个简单的中文句子:

分词后的句子1:今天|的|天气|真|不错
分词后得句子2:今天|的|晚饭|里|也|有|很多|肉|
分词后得句子3:昨天|的|晚饭|有|很多|肉|还|不错

生成以上三个句子所用的词典:

词典:[今天,的,天气,真,不错,晚饭,里,也,有,很多,肉,昨天,还]
这个是13维的字典

根据字典统计三个句子中,每个词出现频率:

句子1:[1,1,1,1,1,0,0,0,0,0,0,0,0]
句子2:[1,1,0,0,0,1,1,1,1,1,0,0,0]
句子3:[0,1,0,0,1,1,0,0,1,1,1,1,1]

用TFIDF的方式生成向量
句子1:[ log ⁡ 3 2 \log \frac{3}{ 2} log23 log ⁡ 3 3 \log \frac{3}{ 3} log33 log ⁡ 3 1 \log \frac{3}{ 1} log13 log ⁡ 3 1 \log \frac{3}{ 1} log13,1 log ⁡ 3 1 \log \frac{3}{ 1} log13,0,0,0,0,0,0,0,0]
句子2:[ log ⁡ 3 2 \log \frac{3}{ 2} log23 log ⁡ 3 3 \log \frac{3}{ 3} log33,0,0,0, log ⁡ 3 2 \log \frac{3}{ 2} log23 log ⁡ 3 1 \log \frac{3}{ 1} log13 log ⁡ 3 1 \log \frac{3}{ 1} log13 log ⁡ 3 2 \log \frac{3}{ 2} log23 log ⁡ 3 2 \log \frac{3}{ 2} log23,0,0,0]
句子3:[0, log ⁡ 3 3 \log \frac{3}{ 3} log33,0,0, log ⁡ 3 2 \log \frac{3}{ 2} log23 log ⁡ 3 2 \log \frac{3}{ 2} log23,0,0, log ⁡ 3 2 \log \frac{3}{ 2} log23 log ⁡ 3 2 \log \frac{3}{ 2} log23 log ⁡ 3 2 \log \frac{3}{ 2} log23 log ⁡ 3 1 \log \frac{3}{ 1} log13 log ⁡ 3 1 \log \frac{3}{ 1} log13]

后续可使用这些向量计算文本相似度等

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值