【图神经网络基础】认识数据集特征的编码方式--TF-IDF(Term Frequency-Inverse Document Frequency)加权词袋模型

        TF-IDF(Term Frequency-Inverse Document Frequency)加权词袋模型是一种在信息检索和文本挖掘中广泛使用的方法,用于衡量一个词在一个文档集中的重要性。它通过结合词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)来计算词的权重,从而更好地表示文档的特征。以下是TF-IDF模型的详细介绍:

1. 词袋模型(Bag of Words, BoW)

        词袋模型是最简单的文本表示方法之一。它不考虑词语顺序,只关注词语的出现次数。每篇文档被表示为一个向量,向量的每个维度对应一个词汇表中的词,值为该词在文档中的出现次数。

例子

假设有以下三个文档:

  • Doc1: "I love machine learning"
  • Doc2: "machine learning is great"
  • Doc3: "I love learning"

词汇表(Vocabulary)可能是:["I", "love", "machine", "learning", "is", "great"]

根据词袋模型表示:

  • Doc1: [1, 1, 1, 1, 0, 0]
  • Doc2: [0, 0, 1, 1, 1, 1]
  • Doc3: [1, 1, 0, 1, 0, 0]

2. TF-IDF加权词袋模型

        TF-IDF模型在词袋模型的基础上,进一步考虑了词在整个文档集中的重要性。它由两个部分组成:

2.1 词频(Term Frequency, TF)

        词频表示词在文档中出现的频率。常见的计算方法是:

2.2 逆文档频率(Inverse Document Frequency, IDF)

        逆文档频率用于衡量词在所有文档中出现的稀有程度。稀有词在文档中的区分能力更强。常见的计算方法是:

2.3 TF-IDF 计算

        TF-IDF 是 TF 和 IDF 的乘积: 

3. 具体计算步骤

假设有以下三个文档:

  • Doc1: "I love machine learning"
  • Doc2: "machine learning is great"
  • Doc3: "I love learning"

步骤1:计算词频(TF)

步骤2:计算逆文档频率(IDF)

步骤3:计算TF-IDF

4. 优势

  • 减少常见词的影响:通过IDF降低在所有文档中频繁出现的词的权重,增强稀有词的区分能力。
  • 提高重要词的权重:通过TF突出在特定文档中频繁出现的词的重要性。

5. 应用

TF-IDF加权词袋模型广泛用于:

  • 文本分类
  • 文本聚类
  • 信息检索
  • 自然语言处理任务中的特征提取

词袋模型(Bag-of-words) 和TF-IDF-CSDN博客文章浏览阅读775次。文章目录TF-IDF(Term Frequency-Inverse Document Frequency),词频-逆文件概率,一种用于资讯检索与资讯探寻的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个文件语料库中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就是, **一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。**这也就是TF-IDF的含义。**Thttps://blog.csdn.net/weixin_46530492/article/details/123300459https://www.cnblogs.com/HuZihu/p/9576794.htmlicon-default.png?t=N7T8https://www.cnblogs.com/HuZihu/p/9576794.html

结论

        确实没有什么岁月静好。

  • 29
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值