自然语言处理--特征选择

最新推荐文章于 2024-08-07 11:38:54 发布

张酒肉

最新推荐文章于 2024-08-07 11:38:54 发布

阅读量1.2k

点赞数

分类专栏： NLP基础学习文章标签： NLP特征选择-TFIDF

本文链接：https://blog.csdn.net/AZRRR/article/details/90239815

版权

文章目录

互信息与点互信息
TF-IDF及TF-IDF值的计算
参考资料

互信息与点互信息

点互信息

在机器学习领域，经常会用到点互信息PMI这个指标来衡量两个事物之间的相关性（比如两个词）。原理如下：
在这里插入图片描述
若x与y不相关，则p(x,y)=p(x)p(y)。二者相关性越大，则p(x,y)就相比于p(x)p(y)越大。中间那个等式较好理解：在y出现的情况下x出现的概率除以x本身出现的概率，自然就表示x跟y的相关程度。
举个自然语言处理中的例子来说，我们想衡量like这个词的极性（正向情感还是负向情感）。我们可以预先挑选一些正向情感的词，比如good。然后我们算like跟good的PMI。

互信息

点互信息PMI其实就是从信息论里面的互信息这个概念里面衍生出来的。
互信息是信息论里的概念：
在这里插入图片描述
其衡量的是两个随机变量之间的相关性，即一个随机变量中包含的关于另一个随机变量的信息量。所谓的随机变量，即随机试验结果的量的表示，可以简单理解为按照一个概率分布进行取值的变量，比如随机抽查的一个人的身高就是一个随机变量。
可以看出，互信息其实就是对X和Y的所有可能的取值情况的点互信息PMI的加权和。因此，点互信息这个名字还是很形象的。

sklearn编程实现

from sklearn import metrics as mr
mr.mutual_info_score(label,x)

label、x为list或array。
计算x和label的互信息

TF-IDF及TF-IDF值的计算

TF-IDF定义

TF-IDF是Term Frequency - Inverse Document Frequency的缩写，即“词频-逆文本频率”。它由两部分组成，TF和IDF。
前面的TF也就是我们前面说到的词频，向量化就是做了文本中各个词的出现频率统计，并作为文本特征，这个很好理解。后面的这个IDF，即“逆文本频率”。几乎所有文本都会出现的"to"其词频虽然高，但是重要性却应该比词频低的"China"和“Travel”要低。IDF就是来帮助反应这个词的重要性的，进而修正仅仅用词频表示的词特征值。
概括来讲， IDF反应了一个词在所有文本中出现的频率，如果一个词在很多的文本中出现，那么它的IDF值应该低，比如上文中的“to”。而反过来如果一个词在比较少的文本中出现，那么它的IDF值应该高。比如一些专业的名词如“Machine Learning”。这样的词IDF值应该高。一个极端的情况，如果一个词在所有的文本中都出现，那么它的IDF值应该为0。
上面是从定性上说明的IDF的作用，那么如何对一个词的IDF进行定量分析呢？这里直接给出一个词x的IDF的基本公式如下：
在这里插入图片描述
其中，N代表语料库中文本的总数，而N(x)代表语料库中包含词x的文本总数。
上面的IDF公式已经可以使用了，但是在一些特殊的情况会有一些小问题，比如某一个生僻词在语料库中没有，这样分母为0， IDF没有意义了。所以常用的IDF需要做一些平滑，使语料库中没有出现的词也可以得到一个合适的IDF值。平滑的方法有很多种，最常见的IDF平滑后的公式之一为：
在这里插入图片描述
这样就可以计算某一个词的TF-IDF值了：

其中TF(x)指词x在当前文本中的词频。

计算TF-IDF

语料库：

# 语料库
corpus = [
    'this is the first document',
    'this is the second second document',
    'and the third one',
    'is this the first document'
]

使用gensim提取文本的tfidf特征

# 把语料库做一个分词的处理
word_list = []
for i in range(len(corpus)):
    word_list.append(corpus[i].split(' '))
print(word_list)

>>[['this', 'is', 'the', 'first', 'document'], ['this', 'is', 'the', 'second', 'second', 'document'], ['and', 'the', 'third', 'one'], ['is', 'this', 'the', 'first', 'document']]

# 得到每个词的id值及词频
from gensim import corpora
# 赋给语料库中每个词(不重复的词)一个整数id
dictionary = corpora.Dictionary(word_list)
new_corpus = [dictionary.doc2bow(text) for text in word_list]
print(new_corpus)
# 元组中第一个元素是词语在词典中对应的id，第二个元素是词语在文档中出现的次数

>>[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1)], [(0, 1), (2, 1), (3, 1

最低0.47元/天解锁文章

张酒肉

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录