特征选择
- TF-IDF原理以及利用其进行特征筛选
- 互信息的原理以及利用其进行特征筛选
TF-IDF
- 原理:
如何提取一篇文章的的关键词?
文章关键词:指能体现一篇文章或一部著作的中心概念的词语。指检索资料时所查内容中必须有的词语。
那么查找文章关键词需要,在文章中出现次数多,且是非停用词的词,且在文章中重要程度高的词。如何衡量某个词的重要程度则为TF-IDF的重点部分,因为在文章中出现次数多的词语,有可能是常见词语比如:“中国”、“学习”等与文章中心概念不相关的词汇,为了筛选这样的词汇,则需要一个重要性调节系数,来衡量这个词是不是常见词。那么如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。
- 词频(TF)
查找关键字前,统计词在文章中出现的次数
- 为了便于不同文章的比较,进行“词频”标准化
或者
- 逆文档频率(IDF)
在词频的基础上,要对每个词分配一个"重要性"权重。最常见的词("的"、"是"、"在")给予最小的权重,较常见的词("中国")给予较小的权重,较少见的词给予较大的权重。
此时需要一个语料库,用来模拟语言的使用环境
- 计算TF-IDF
利用TF-IDF进行特征筛选
- 使用gensim提取文本tfidf特征
- 使用sklearn提取文本tfidf特征
互信息
- 原理
- 点互信息PMI
公式如下:
如果x,y不相关,则
如果x,y相关,则当二者相关性越大相比于
则越大
在出现的情况下
出现的条件概率
除以
本身出现的概率
,自然就表示x跟y的相关程度。
- 互信息MI
用来衡量两个数据分布的吻合程度
其中值越大意味着结果与真实情况越吻合
公式如下:
其衡量的是两个随机变量之间的相关性,即一个随机变量中包含的关于另一个随机变量的信息量;
所谓的随机变量,即随机试验结果的量的表示,可以简单理解为按照一个概率分布进行取值的变量,比如随机抽查的一个人的身高就是一个随机变量;
其中互信息其实就是对X和Y的所有可能的取值情况的点互信息PMI的加权和。