td-idf理解

最新推荐文章于 2024-06-15 19:03:40 发布

芃之禾

最新推荐文章于 2024-06-15 19:03:40 发布

阅读量2.1k

点赞数 2

分类专栏： nlp学习文章标签：自然语言处理 nlp

本文链接：https://blog.csdn.net/theowl13/article/details/113842392

版权

nlp学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

定义

TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。

公式（个人理解版）

以二维向量距离，更多维向量以此推类

分子为向量的点乘，分母为距离

$t f = 文档 d 中词 w 出现的次数$

$idf=\log \frac{N}{ N(w)}（N为文档总量，N(w)为这个词出现在多少文档中）$

$\times idf$

个人理解

降低高频词如（的，了）等在全文中相似度的比重，增强出现频次小的词对相似度结果的影响

举例说明

简单举例，三个简单的中文句子：

分词后的句子1：今天|的|天气|真|不错
分词后得句子2：今天|的|晚饭|里|也|有|很多|肉|
分词后得句子3：昨天|的|晚饭|有|很多|肉|还|不错

生成以上三个句子所用的词典：

词典：[今天，的，天气，真，不错，晚饭，里，也，有，很多，肉，昨天，还]
这个是13维的字典

根据字典统计三个句子中，每个词出现频率：

句子1：[1，1，1，1，1，0，0，0，0，0，0，0，0]
句子2：[1，1，0，0，0，1，1，1，1，1，0，0，0]
句子3：[0，1，0，0，1，1，0，0，1，1，1，1，1]

用TFIDF的方式生成向量
句子1：[ $\log \frac{3}{ 2}$ ， $\log \frac{3}{ 3}$ ， $\log \frac{3}{ 1}$ ， $\log \frac{3}{ 1}$ ，1 $\log \frac{3}{ 1}$ ，0，0，0，0，0，0，0，0]
句子2：[ $\log \frac{3}{ 2}$ ， $\log \frac{3}{ 3}$ ，0，0，0， $\log \frac{3}{ 2}$ ， $\log \frac{3}{ 1}$ ， $\log \frac{3}{ 1}$ ， $\log \frac{3}{ 2}$ ， $\log \frac{3}{ 2}$ ，0，0，0]
句子3：[0， $\log \frac{3}{ 3}$ ，0，0， $\log \frac{3}{ 2}$ ， $\log \frac{3}{ 2}$ ，0，0， $\log \frac{3}{ 2}$ ， $\log \frac{3}{ 2}$ ， $\log \frac{3}{ 2}$ ， $\log \frac{3}{ 1}$ ， $\log \frac{3}{ 1}$ ]

后续可使用这些向量计算文本相似度等

芃之禾

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
td-idf理解

定义TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。公式（个人理解版）以二维向量距离，更多维向量以此推类分子为向量的点乘，分母为距离tf=文档d中词w出现的次数tf=文档d中词w出现的次数tf=文档d中词w出现的次数idf=log⁡NN(w)（N为文档总量，N(w)为这个词出现在多
复制链接

扫一扫