02 Pytorch_NLP

1. N-gram

n决定关联信息

2. TF____IDF 

TF:词频

IDF:逆向序列

        假如:TF * IDF 就是当前的文件,那么乘积反而更大!

                        因为它只出现在 特定的文章中!

TF-IDF 简介

TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法,用于评估一个词在文档集合中的重要程度。它由两部分组成:

  • TF(词频):一个词在文档中出现的次数。
  • IDF(逆文档频率):该词在整个语料库中出现的频率的逆。

代码示例

下面的代码展示了如何计算一个文本语料库中每个词的TF-IDF值,并将每个句子编码为一个包含这些TF-IDF值的向量。

from sklearn.feature_extraction.text import TfidfVectorizer

# 示例文档
documents = [
    "The cat sat on the mat",
    "The dog sat on the log",
    "The cat chased the mouse",
    "The dog chased the cat"
]

# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer()

# 对文档进行TF-IDF转换
tfidf_matrix = vectorizer.fit_transform(documents)

# 获取词汇表
feature_names = vectorizer.get_feature_names_out()

# 打印TF-IDF矩阵
print(tfidf_matrix.toarray())

# 打印词汇表
print(feature_names)

代码解释

  1. 创建示例文档:包含四个简单的句子。
  2. 创建TF-IDF向量化器:使用 TfidfVectorizer 类。
  3. 进行TF-IDF转换:将文档列表传递给向量化器的 fit_transform 方法,生成TF-IDF矩阵。
  4. 获取词汇表:使用 get_feature_names_out 方法获取词汇表中的词。
  5. 打印TF-IDF矩阵词汇表:分别打印TF-IDF矩阵和词汇表。

示例输出

假设上述代码的输出如下:

[[0.        0.        0.        0.469417   0.580285 0.469417   0.469417   0.        0.        0.        0.        ]
 [0.        0.        0.        0.469417   0.580285 0.469417   0.        0.469417   0.        0.        0.        ]
 [0.469417   0.469417   0.        0.        0.        0.        0.469417   0.        0.        0.580285 0.469417   ]
 [0.469417   0.469417   0.469417   0.        0.        0.        0.469417   0.        0.580285 0.        0.        ]]
['cat' 'chased' 'dog' 'log' 'mat' 'mouse' 'on' 'sat' 'the']

每一行对应一个文档,每一列对应一个词汇表中的词。值是该词在该文档中的TF-IDF值。

解释图片中的步骤

  1. 切分所有的词,记词的数量为 n

    • 对文档进行词切分,统计每个词的数量,得到词汇表大小 n。
  2. 计算每个词的 TF-IDF 值

    • 使用上面代码中的 TfidfVectorizer 计算每个词的 TF-IDF 值。
  3. 对每个句子进行编码

    • 使用 TF-IDF 值将每个句子编码为一个向量,向量的维度为 n。如果一个词在句子中出现,其值为该词的 TF-IDF 值,如果未出现则值为 0。
  4. 降维操作

    • 由于 n 可能很大,可以使用 PCA、SVD、LDA 等方法对向量进行降维。

这个过程可以将文档转化为向量表示,便于后续的机器学习和数据分析。


2.8 在比赛中的应用

3.Word2Vec算法简 

3.1数据挖掘 应用 

        

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉入门

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值