特征选择之信息增益法

设计分类系统的时候,一个很重要的环节便是特征选择,面对成千上万上百万的特征,如何选取有利于分类的特征呢?信息增益(Information Gain)法就是其中一种简单高效的做法。本文首先介绍理解信息增益(Information Gain)需要的基本概念,之后介绍如何将其运用在特征选择中,最后以stanford-nlp中利用信息增益法实现特征选择的例子结束本文。

熵(Entropy)

介绍信息增益大法前,不得不提的一个概念就是熵。熵是信息论中一个很重要的概念,我们先看看它的长相:

H(X)=xp(x)logp(x)
不得不承认,熵长得挺恶心的,从表达式中完全看不出半点端倪,根本不知道它有何作用。别急,我们慢慢研究,希望最后可以得到一个直观理解。

如何量化信息

平时我们会这样说”这句话信息量好大”,我们通常所指的信息是指那句话里的语义,而这里我们谈的信息则是信息论鼻祖Shannon定义的,Shannon老爷子认为消息传递的过程是这样的:消息首先被编码器编码之后经过一定的通道再经过解码器解码,最后信息传递给目标。那么目标者能获得多少原来的信息则是我们这里所谈的信息,这样的信息可能是一堆废话,完全没”信息量”。
我们知道信息在传递的时候有很多不确定因素,而量化不确定因素的一个利器就是概率论,那么在概率框架下的信息的定义是这样的:对于一个事件 i ,它发生的概率是pi,那么当观察到该事件的时候,我们到底获得多少信息呢?Shannon老爷子是这样定义信息函数的:

I(p)=log(p)
,并规定底可以取大于1的任意数,通常可以取 2,e,10 等。为什么要以对数来定义呢?在老爷子自己的开山大作 《A Mathematical Theory of Communication》中给了三个理由:

第一,这样定义在实际中非常有用(不管黑猫白猫理论),工程的重要参数随数据概率的对数而线性改变。如时间、带宽、继电器数,等等。
第二,对数更接近我们本身的直观感受,我们是线性直观地测量实体对象,例如两张穿孔卡片比一张具有有两倍信息贮存量。
第三,以对数定义信息在数学上可以得到极大便利。

信息函数的性质

我们参考一下维基百科看看这样定义的性质有什么:

I(p)>=0......(1)I(1)=0......(2)I(p1,p2)=I(p1)+I(p2)......(3)
(1)式讲的是信息是非负的,我们最坏情况是得不到信息。(2)式表面必然发生的事情是不含信息量的,如果我们被告知地球是球状的,我们不会获得什么直接信息吧(除了觉得那个人有毛病)。(3)式则是说对于两个独立事件发生产生的信息量等于我们各自观察每个事件所获得的信息量。看,这样定义信息其实也挺符合我们对信息的通常理解。
那么回过头来看看我们的老朋友熵:
H(X)=xp(x)logp(x)=xp(x)I(x)
那么熵可以看成是观察事件 X 发生后我们获得的期望信息量,如果H(x)越大,那么说明我们获得的信息量越大,同时也说明 X 更趋向于均匀分布,由上面(2)式可知,信息量大不大反应于我们对事件发生可预知的概率大不大,如果我们知道事件肯定发生或者肯定不发生,我们得到的信息量是0,而越是对事件越不确定,越能够从这样的事件获得信息。那么当事件发生的概率是0.5的时候,我们获得最大的熵。再看一个常见的例子,假如我们在抛一枚硬币的事件是X,我们看看 H(X) 与看到正面的事件的概率 Pr(X=1) 所构成的图像是怎样的:
https://en.wikipedia.org/wiki/Entropy_(information_theory)#/media/File:Binary_entropy_plot.svg
从图像中我们可以知道,当 Pr(X=1)=0.5 的时候, H(X) 达到峰值。因此我们可以这样直观地理解熵:熵是用来衡量事件可预知性,熵越大,事件发生的概率越随机。

条件熵(Conditional Entropy)

我们的目的是特征选择,那么现在假设我们在做一个垃圾分类器,首先我们从训练数据 X={x1,x2,...,xn} 中抽取特征,将每个输入 xi 映射到特征空间 Fi={f1,f2,...,fm} ,然后通过我们熟悉的机器学习算法比如SVM,NaiveBayes,LogisticRegression等等,从训练数据中获得这样的模型:

f(F)=C
C=1 代表输入是垃圾, C=0 代表是输入非垃圾。很不幸,通常 m 将会很大,几万或几百万,这样不仅导致冗长的训练时间,甚至导致严重的Overfitting。那么我们便希望通过某种方法,将m变小,降低到几千或者几百。接下来进入我们的尝试阶段。

定义

我们先来看看这小节的主角的形象:

H(X|Z)=zp(z)xp(x|z)log(p(x|z))=xzp(z)p(x|z)log(p(x|z))=xzp(x,z)logp(x,z)p(z)=xzp(x,z)logp(z)p(x,z)

性质

好吧,看容貌,条件熵更加平易远人,我们知道熵是非负的,那么上面那一坨定义是否也是非负呢?利用Jensen不等式我们可以检验:

H(X|Z)=xzp(x,z)logp(z)p(x,z)logxzp(x,z)p(z)p(x,z)=logzp(z)=0
那么我们的定义应该没有问题。我们再来看看它和单独的 H(X) 有什么关系,我们可以检验一下 H(X)H(X|Z) 的正负性,经过类似上面的推导,我们知道:
H(X)H(X|Z)
也就是 H(X) H(X|Z) 的上界(upbound)。

现在先不管复杂的表达式,我们试之从直觉上理解。上一节我们了解到熵是衡量事件发生的可预知性,那么条件熵我们可以这样理解,事件 Z 发生了对于我们知道事件X有什么贡献。当事件 Z 发生了但是完全没贡献时候,当前仅当H(X)=H(X|Z),此时事件 X 与事件Z相互独立,否则,只要 H(X|Z)0 ,事件 Z 就对我们预知事件X有贡献,因为 H(X|Z)H(X) 的, Z 的出现导致熵变小了,我们对事件X的预知能力变强了。

尝试利用条件熵做特征选择

那么对于分类器而言,我们想知道某个特征对于分类这样的事件到底有多大贡献,然后对贡献太小的特征就舍弃,从而达到特征选择地效果。现在我们就进行尝试,假设我们有一个事件 F f11代表在我们拥有 f2,f3,...,fm 的情况下,再包含特征 f1 的事件, f1=0 则表明不包含特征 f1 的事件。那么我们想知道 f1,f2 对于我们识别垃圾到底哪个贡献大,我们可以比较 H(C=1|f1),H(C=1|f2) 看看哪个更小,熵小的特征说明对于识别信息为垃圾的事件贡献更大。于是我们计算所有特征都的 H(C=1|fi) ,按照从小到大排序,取前 K 个特征,太棒了,貌似我们解决了特征选择问题了。但是我们再仔细思考一下,上面的做法只是筛选出了对于识别是垃圾这种类别有用的特征,但是可能刷掉了对于识别非垃圾事件有用的特征,怎么办呢?我们可不可以比较一下H(C=1|f1)H(C=0|f1)的大小从而决定该特征是对识别为垃圾的事件贡献大还是对识别为非垃圾的贡献大呢?答案是否定的,因为两者不具备可比性,为什么呢?因为两者具有不同的上界,不在同一标准,所以不具备可比性。那该怎么办呢?

信息增益(Information Gain)

上一节我们一开始以为找到了特征选择的办法,后来发现是不可行的,这一次,我们的主角将为我们解决难题。

定义

老套路,我们还是先看看老兄的形象:

IG(X,Z)=H(X)H(X|Z)=H(Z)H(Z|X)
有了前两节的基础,老兄并不那么面目可憎,反而有点熟悉,似曾相识。没错,你没有认错,上一节中我们为了证明 H(X) H(X|Z) 上界,就已经出现上述所示。这次我们并不是要证明什么上界下界,我们直接对其差值进行定义,并取名字为信息增益(Information Gain)。

性质

我们照常来看看信息增益的一些性质。首先从定义可以很容易知道它符合交换律,也就是

IG(X,Z)=IG(Z,X)
,其次信息增益具有非负性
IG(X,Z)0
当且仅当 X,Z 相互独立的时候等号取得成立。我们可以这样直观地理解信息增益的含义:观察到事件 Z 对于我们预知X提供了多少信息,或者观察到事件 X 对于我们预知Z提供了多少信息。通过定义我们可以很容易验证两种描述都是正确的。因此我们称之为信息增益,观察到一个事件,另一个事件获得了多少信息。我们类比一下高中学过的重力势能,不同高度的重力势能是不同的,但是对于相同的高度差,重力势能的差值却是相同的。
由于两个事件相互的信息增益是相同的,所以信息增益也叫相互信息(Mutual Information)。对于定义,我们可以展开重写一下:
IG(X,Z)=H(X)H(X|Z)=xp(x)logp(x)+zxp(x,z)logp(x,z)p(z)=xzp(x,z)logp(x)+zxp(x,z)logp(x,z)p(z)=zxp(x,z)logp(x,z)p(z)p(x)=KL(p(x,z)||p(x)p(z))
突然出现一个新人物,Kullback-Leibler Divergence,对于 KL(p||q) ,可以近似认为他是衡量分布p与q的距离,当两个分布相同的时候,KL散度为0,越是不同,KL散度越大。所以信息增益又被称为Information Divergence。我们可以理解为它是衡量联合分布 p(x,z) 与假设他们 X,Z 相互独立时的联合分布 p(x)p(z) 之间的散度。

利用信息增益做特征选择

上一节中,我们说过 H(C=1|f1),H(C=0|f2) 不具备可比性,因为他们具有不同的上界 H(C=1),H(C=0) ,从而阻止我们利用条件熵来做特征选择,这次我们利用信息增益再看看会不会有相同问题。我们看

IG(C=1,f1)IG(C=0,f1)
是否具有可比性,由于两者都是算当包含或不包含特征 f1 的时候,为识别为垃圾的事件带来多少信息,为识别为非垃圾带来多少信息,那么我们可以直接用
IG(C,f1)
来衡量特征当包含或不包含 f1 的时候,为分类器的识别提供了多少信息量,同理可以利用
IG(C,f2)
来衡量包含或不包含特征 f2 为分类器提供了多少信息量,依次类推,我们分别求出每个特征对分类器提供的信息量,然后从大到小进行排序,取前 K 个特征,我们就达到利用信息增益做特征选择的目的!

信息增益法在stanford-nlp的应用

前面讲了那么多理论,该是大显身手的时候了。我们再回过头来看如何求取分类与特征之间的信息增益。首先观察定义:

IG(C,fi)=H(C)H(C|fi)=c{0,1}p(c)logp(c)+fi{0,1}p(fi)c{0,1}p(c|fi)logp(c|fi)
,我们知道计算信息增益分为两部分,一部分是计算类别 C 的熵H(C),另一部分是计算在事件 fi 下的条件熵 H(C|fi) ,计算熵的时候,涉及到概率计算,我们通常都是采用极大似然法来估计概率,各个概率的估计如下:

假设我们的训练样本数是 N

p(C=0)=count(c=0)Np(C=1)=1p(C=0)
对于 p(fi)p(c|fi) 的估计,stanford-nlp中首先是对每个训练样本进行统计,对于每个特征 fi 在训练样本 x 中只要出现过就加一次,出现两次也算一次。这样计数下来就可以统计到每个特征的featureCount。那么接下来的估计如下:
p(fi=1)=count(fi=1)Np(fi=0)=1p(fi)p(C=0|fi=1)=count(C=0,fi=1)count(fi=1)p(C=1|fi=1)=count(C=1,fi=1)count(fi=1)p(C=0|fi=0)=count(C=0,fi=0)count(fi=0)p(C=1|fi=0)=count(C=1,fi=0)count(fi=0)

且看Dataset里面的一段代码:

  public double[] getInformationGains() {
    labels = trimToSize(labels);
    ClassicCounter<F> featureCounter = new ClassicCounter<F>();
    ClassicCounter<L> labelCounter = new ClassicCounter<L>();
    TwoDimensionalCounter<F,L> condCounter = new TwoDimensionalCounter<F,L>();
    for (int i = 0; i < labels.length; i++) {
      labelCounter.incrementCount(labelIndex.get(labels[i]));
      boolean[] doc = new boolean[featureIndex.size()];
      for (int j = 0; j < data[i].length; j++) {
        doc[data[i][j]] = true;//标识一下特征是否出现过
      }
      for (int j = 0; j < doc.length; j++) {
        if (doc[j]) {//统计count(fi)和count(c|fi)
          featureCounter.incrementCount(featureIndex.get(j));
          condCounter.incrementCount(featureIndex.get(j), labelIndex.get(labels[i]), 1.0);
        }
      }
    }

    double entropy = 0.0;//计算H(C)
    for (int i = 0; i < labelIndex.size(); i++) {
      double labelCount = labelCounter.getCount(labelIndex.get(i));
      double p = labelCount / size();
      entropy -= p * (Math.log(p) / Math.log(2));
    }

    double[] ig = new double[featureIndex.size()];
    Arrays.fill(ig, entropy);
    //计算H(C|fi)
    for (int i = 0; i < featureIndex.size(); i++) {
      F feature = featureIndex.get(i);
      double featureCount = featureCounter.getCount(feature);//count(fi=1)
      double notFeatureCount = size() - featureCount;//count(fi=0)
      double pFeature =  featureCount / size();//p(fi=1)
      double pNotFeature = (1.0 - pFeature);//p(fi=0)
      if (featureCount == 0) { ig[i] = 0; continue; }
      if (notFeatureCount == 0) { ig[i] = 0; continue; }
      double sumFeature = 0.0;
      double sumNotFeature = 0.0;
      for (int j = 0; j < labelIndex.size(); j++) {
        L label = labelIndex.get(j);
        double featureLabelCount = condCounter.getCount(feature, label);//count(c,fi=1)
        double notFeatureLabelCount = size() - featureLabelCount;//count(c,fi=0)
        double p = featureLabelCount / featureCount;//p(c|fi=1)
        double pNot = notFeatureLabelCount / notFeatureCount;//p(c|fi=0)
        if (featureLabelCount != 0) {
          sumFeature += p * (Math.log(p) / Math.log(2));
        }
        if (notFeatureLabelCount != 0) {
          sumNotFeature += pNot * (Math.log(pNot) / Math.log(2));
        }
      }
    ig[i] += pFeature*sumFeature + pNotFeature*sumNotFeature;//最后H(C)+H(C|F)
         return ig;
  }

对于每个特征计算信息增益后,进行排序,然后就可以愉快地取前 K <script type="math/tex" id="MathJax-Element-89">K</script>个特征了!

参考文献

维基百科Entropy: https://en.wikipedia.org/wiki/Entropy_(information_theory)
课程Text Mining and Analytics第一周最后4节:https://class.coursera.org/textanalytics-001/lecture

  • 19
    点赞
  • 75
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
【资源说明】 基于遗传算、强化学习自动选择高频因子python实现源码+项目说明.zip 基于遗传算、强化学习自动选择高频因子python实现源码+项目说明.zip 因子评价 XGB 树分裂的参考 信息增益 线性回归的参考 因子处理函数 def neutralize(): 中性化 def winsorize(): 去极值 def winsorize_med(): 中位数去极值 def standrlize(): 标准化 具体事项 回测报告 ST剔除,结果保存在NAS/output中。3000+ => 2100 (2018-2022) 因子生成 可选因子:流动性、波动率和不平衡性。以及其他基础指标 分钟级,流动性,不平衡性 根据分钟级的曲线,来提取特征,实现因子 预测?下一日的流动性 R^Squared 流动性转化为收益率 流动性的变化率 可选变换:min max 普通运算 rank 股票选择: 根据因子值的大小排序,选择股票 根据quantile分组 选股去掉涨停 行业,大盘指数 twap均价。作为成交的价格。成交时间:一天?五天? PnL (未完成) 数量选择: 等权重配置 组合风险最小化(最小化组合方差);组合总权重限制为90%到100%;组合年化收益率目标下限为10% 组合夏普比率最大化;每只标的权重不超过10% 问题 如何访问到docker里面的文件。pycharm 只能download 不能upload吗? 如何一行一行运行? Debug image (1) 今天参考了alphalens, 并在此基础上开发回测框架,具体分为 time-IC 折线图 正态分布图 QQ图 热力图 Cumulative return Cumulative return by quantile 1D period forward return IC 2D period forward return IC(存疑) 5D period forward return IC(存疑) (2) 因子开发的格式 因子名称: Liquidity_DeltaTurnover 一级分类: PriceVolume 二级分类: Liquidity 因子编号: Factor01040009 因子含义: 因子说明: 因子算: 因子来源:海通证券《选股因子系列研究 *****》 工厂方生成因子类 class StockFactor(object): def __init__(self, name,category,description): """ 初始化因子 :param name: 因子名称 """ self.name = name self.category = category self.description = description def name(self): return self.name @abstractmethod def compute(self, start_date, end_date): """ 计算指定周期内的因子值 :param start_date: 开始时间 :param end_date: 结束时间 """ pass (3)继续研究高频语境下的orderflow imbalance和volatility。看了两篇论文,约了组里的同学明天开会讨论一下。 (4)数据预处理 剔除上市时间不满60天的新股 采用MAD侦测单变量的异常值,将均值和标准差换成稳健的统计量,均值用样本中位数代替 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值