自然语言处理 3

特征选择

  1. TF-IDF原理以及利用其进行特征筛选
  2. 互信息的原理以及利用其进行特征筛选

TF-IDF

  1. 原理:

如何提取一篇文章的的关键词?

文章关键词:指能体现一篇文章或一部著作的中心概念的词语。指检索资料时所查内容中必须有的词语。
那么查找文章关键词需要,在文章中出现次数多,且是非停用词的词,且在文章中重要程度高的词。

如何衡量某个词的重要程度则为TF-IDF的重点部分,因为在文章中出现次数多的词语,有可能是常见词语比如:“中国”、“学习”等与文章中心概念不相关的词汇,为了筛选这样的词汇,则需要一个重要性调节系数,来衡量这个词是不是常见词。那么如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。

  1. 词频(TF)

 

查找关键字前,统计词在文章中出现的次数

词频(TF) = 某个词在文章中的出现次数

  • 为了便于不同文章的比较,进行“词频”标准化
    词频(TF) = \frac{某个词在文章中的出现次数}{文章的总次数}
    或者
    词频(TF) = \frac{某个词在文章中的出现次数}{该文中出现次数最多的词的出现次数}
  1. 逆文档频率(IDF)

在词频的基础上,要对每个词分配一个"重要性"权重。最常见的词("的"、"是"、"在")给予最小的权重,较常见的词("中国")给予较小的权重,较少见的词给予较大的权重。
此时需要一个语料库,用来模拟语言的使用环境
逆文档频率(IDF) = log(\frac{语料库的文档总数}{包含该词的文档数+1})

  1. 计算TF-IDF
    TF - IDF = 词频(TF) \times 逆文档频率(IDF)

利用TF-IDF进行特征筛选

  • 使用gensim提取文本tfidf特征

 

  • 使用sklearn提取文本tfidf特征

互信息

  1. 原理
  • 点互信息PMI
    公式如下:
    PMI(x;y) = log\frac{p(x,y)}{p(x)p(y)}=log\frac{p(x|y)}{p(x)}=log\frac{p(y|x)}{p(x)}

如果x,y不相关,则P(x,y) = P(x)P(y)
如果x,y相关,则当二者相关性越大P(x,y)相比于P(x)P(y)则越大
y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x),自然就表示x跟y的相关程度。

  • 互信息MI

用来衡量两个数据分布的吻合程度
其中值越大意味着结果与真实情况越吻合

公式如下:
I(X;Y) = \sum_{x\in X}\sum_{y\in Y}p(x, y)log\frac {p(x,y)}{p(x)p(y)}

其衡量的是两个随机变量之间的相关性,即一个随机变量中包含的关于另一个随机变量的信息量;
所谓的随机变量,即随机试验结果的量的表示,可以简单理解为按照一个概率分布进行取值的变量,比如随机抽查的一个人的身高就是一个随机变量;
其中互信息其实就是对X和Y的所有可能的取值情况的点互信息PMI的加权和

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值