python 特征选择卡方_文本特征选择(信息熵、Gini、IV、卡方值)

信息熵:描述信息系统的混乱程度(不确定度)。信息越确定,越单一,信息熵越小。信息越不确定,越混乱,信息熵越大。因此一个系统的信息熵越高就越无序,信息熵越低就越有序,信息熵越高,使其有序所要消耗的信息量就越大。条件熵:在某种情况下的混乱度。信息增益=整体信息熵-条件熵指的就是熵的减少量,代表了在一个条件下,信息复杂度(不确定性)减少的程度。信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分...
摘要由CSDN通过智能技术生成

信息熵:描述信息系统的混乱程度(不确定度)。信息越确定,越单一,信息熵越小。信息越不确定,越混乱,信息熵越大。因此一个系统的信息熵越高就越无序,信息熵越低就越有序,信息熵越高,使其有序所要消耗的信息量就越大。

条件熵:在某种情况下的混乱度。

信息增益=整体信息熵-条件熵

指的就是熵的减少量,代表了在一个条件下,信息复杂度(不确定性)减少的程度。信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。

文本分类中,要计算各个单词信息增益例子:

信息增益法,把特征词看做一个变量特征,那么词的变量只有缺失与存在的两种情况下,那么特征词的信息增益=系统的信息熵-特征词的条件熵(文本分类中,根据特征词的条件熵倒排就可以做特征选择,即条件熵越小改特征词越重要)

某个词的条件熵=存在的概率*存在时的信息熵+缺失的概率*缺失时的信息熵

比如:在一个只有火锅和烧烤两个分类下,有100条短文本,68条为火锅分类,32条为烧烤。其中有10条文本含有'牛肉'这个词语,其中8条属于火锅分类,2条是属于烧烤分类。

那么牛肉这个词语在这个文本分类当中的信息增益计算过程为:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值