自然语言处理 3

最新推荐文章于 2023-02-16 14:20:35 发布

qq_27678431

最新推荐文章于 2023-02-16 14:20:35 发布

阅读量154

点赞数

本文链接：https://blog.csdn.net/qq_27678431/article/details/90267119

版权

特征选择

TF-IDF原理以及利用其进行特征筛选
互信息的原理以及利用其进行特征筛选

TF-IDF

原理：

如何提取一篇文章的的关键词？

文章关键词：指能体现一篇文章或一部著作的中心概念的词语。指检索资料时所查内容中必须有的词语。
那么查找文章关键词需要，在文章中出现次数多，且是非停用词的词，且在文章中重要程度高的词。

如何衡量某个词的重要程度则为TF-IDF的重点部分，因为在文章中出现次数多的词语，有可能是常见词语比如：“中国”、“学习”等与文章中心概念不相关的词汇，为了筛选这样的词汇，则需要一个重要性调节系数，来衡量这个词是不是常见词。那么如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。

词频（TF）

查找关键字前，统计词在文章中出现的次数

词频(TF) = 某个词在文章中的出现次数

为了便于不同文章的比较，进行“词频”标准化
$词频(TF) = \frac{某个词在文章中的出现次数}{文章的总次数}$
或者
$词频(TF) = \frac{某个词在文章中的出现次数}{该文中出现次数最多的词的出现次数}$

逆文档频率（IDF）

在词频的基础上，要对每个词分配一个"重要性"权重。最常见的词（"的"、"是"、"在"）给予最小的权重，较常见的词（"中国"）给予较小的权重，较少见的词给予较大的权重。
此时需要一个语料库，用来模拟语言的使用环境
$逆文档频率(IDF) = log(\frac{语料库的文档总数}{包含该词的文档数+1})$

计算TF-IDF
$TF - IDF = 词频(TF) \times 逆文档频率(IDF)$

利用TF-IDF进行特征筛选

使用gensim提取文本tfidf特征

使用sklearn提取文本tfidf特征

互信息

原理

点互信息PMI
公式如下：
$PMI(x;y) = log\frac{p(x,y)}{p(x)p(y)}=log\frac{p(x|y)}{p(x)}=log\frac{p(y|x)}{p(x)}$

如果x,y不相关，则
如果x,y相关，则当二者相关性越大相比于则越大
在出现的情况下出现的条件概率除以本身出现的概率，自然就表示x跟y的相关程度。

互信息MI

用来衡量两个数据分布的吻合程度
其中值越大意味着结果与真实情况越吻合

公式如下：
$I(X;Y) = \sum_{x\in X}\sum_{y\in Y}p(x, y)log\frac {p(x,y)}{p(x)p(y)}$

其衡量的是两个随机变量之间的相关性，即一个随机变量中包含的关于另一个随机变量的信息量；
所谓的随机变量，即随机试验结果的量的表示，可以简单理解为按照一个概率分布进行取值的变量，比如随机抽查的一个人的身高就是一个随机变量；
其中互信息其实就是对X和Y的所有可能的取值情况的点互信息PMI的加权和。

qq_27678431

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理 3

特征选择TF-IDF原理以及利用其进行特征筛选互信息的原理以及利用其进行特征筛选TF-IDF原理：如何提取一篇文章的的关键词？文章关键词：指能体现一篇文章或一部著作的中心概念的词语。指检索资料时所查内容中必须有的词语。那么查找文章关键词需要，在文章中出现次数多，且是非停用词的词，且在文章中重要程度高的词。如何衡量某个词的重要程度则为TF-IDF的重点部分，因为在文章中...
复制链接

扫一扫