【NLP】为什么要有 tf-idf，从 bag-of-words 说起

最新推荐文章于 2024-06-25 10:40:54 发布

x66ccff

最新推荐文章于 2024-06-25 10:40:54 发布

阅读量331

点赞数 8

分类专栏： NLP 文章标签：自然语言处理 tf-idf 人工智能

本文链接：https://blog.csdn.net/qq_18846849/article/details/137938398

版权

NLP 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

词袋模型最常用的是可以将其得到的文档词频（term frequency）作为一个 feature。比如上文中的文档1和文档2，其 term frequency feature 可以用列表表示为

(1) [1, 2, 1, 1, 2, 1, 1, 0, 0, 0]
(2) [0, 1, 1, 1, 0, 1, 0, 1, 1, 1]
其中，
的第一个元素值 1 表示 John 在文档 1 中出现了一次，第二个元素值 2 表示 likes 出现了两次。

词袋模型并没有保留原文档的语法结构。同时， term frequency 也**不是文档的最佳向量表示。**常用词如 **‘the’，‘a’，‘to’ 无疑是最高频的词，但是这些高频词在文档中并不是最重要的信息。**解决这个问题的一种方法是 tf-idf

引用：TF-IDF 原理与实现

TF-IDF

Tf-idf 是用来给词语进行加权的，对于给定的一堆语料库，给一个文档，和一个文档里的词，可以得到这个词在这一堆文档里面的权重。

tf：term frequency 
词频，越经常出现的词越重要

idf：inversed document frequency 
逆文档频率，越在各个文档里面出现得多的词越不重要

Tf-idf = tf * log(N/n)
N 就是所有文档的个数
n是出现这一个词的文档数

x66ccff

关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【NLP】为什么要有 tf-idf，从 bag-of-words 说起

词袋模型最常用的是可以将其得到的文档词频（term frequency）作为一个 feature。比如上文中的文档1和文档2，其 term frequency feature 可以用列表表示为其中，的第一个元素值 1 表示 John 在文档 1 中出现了一次，第二个元素值 2 表示 likes 出现了两次。词袋模型并没有保留原文档的语法结构。同时， term frequency 也**不是文档的最佳向量表示。
复制链接

扫一扫