自然语言处理第四期

最新推荐文章于 2022-10-26 11:50:08 发布

渣渣胤的编程之旅

最新推荐文章于 2022-10-26 11:50:08 发布

阅读量145

点赞数

本文链接：https://blog.csdn.net/weixin_40624556/article/details/89289384

版权

TF-IDF原理
TF-IDF（词频-逆文本频率），是一种统计方法，用于评估一个词对于一个文本的重要程度，词的重要性随着它在文件中出现的次数成正比，但同时会因为它在多个文本中出现的频率成反比。总的来说，一个词语在一篇文章中出现的次数越多，同时在所有文档中出现的次数越少，就越能代表该文章。
TF-IDF主要是有词频TF和IDF逆文本频率IDF组成，公式为：
$T F - I D F = T F * I D F$
TF是指语料库中的词在该句子中出现的频率，公式如下；
$\frac{在某一类中词条w出现的次数}{该类中所有的词条数目}$
IDF的定义如下：
$log\frac{语料库的文档总数+1}{包含词条w的文档数+1}+1$
IDF越大，则越说吗该词条具有很好的类别区分能力，上述公式是经过IDF平滑后的公式，防止因为某一个词语没出现在语料库的时候，分母变为0。
文本矩阵化


import pandas as pd

# 将txt文件转化为dataframe
f = open('/Users/weihongyin/知识星球/nlp/cnews/cnews.test.txt').read()

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [] 
corpus.append(" ".join(jieba.cut(f)))

vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(corpus)
print(tfidf.shape)
print(tfidf)

互信息
互信息是衡量两个随机变量相关性的一个指标，即一个随机变量中包含另一个随机变量的信息量的多少。
特征筛选：

渣渣胤的编程之旅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理第四期

TF-IDF原理TF-IDF（词频-逆文本频率），是一种统计方法，用于评估一个词对于一个文本的重要程度，词的重要性随着它在文件中出现的次数成正比，但同时会因为它在多个文本中出现的频率成反比。总的来说，一个词语在一篇文章中出现的次数越多，同时在所有文档中出现的次数越少，就越能代表该文章。TF-IDF主要是有词频TF和IDF逆文本频率IDF组成，公式为：TF−IDF=TF∗IDFTF-IDF ...
复制链接

扫一扫