信息熵
1、信息量是度量 信息的单位
2、信息的信息量的大小与 事件发生的概率相关:比如你想要得到(中国男足失利)这条信息,这条信息的信息量可以看做很小,因为你心里默认这是必然的,你学不到任何知识;相反的,如果你得到的是(中国男足夺冠)这条信息,这条信息的信息量将会很大,你就会点击相应的连接去了解(你的价值观都被颠覆了)
3、设一条信息的信息量为 I(x),两条信息的信息量为 I(x)+I(y) //度量单位的计算方式就是累加,一条绳子x米,另一条绳子y米,两条绳子x+y米;设 I(x)对应的事件发生概率为p(x),I(y)对应的事件发生的概率为p(y)
两件事件同时发生的概率为p(x,y)=p(x)p(y) 从这两件事件中学习到的信息量为I(x,y)=I(x)+I(y) #我们如何通过概率去 度量 信息量I(x) 即:I(x,y)=f(p(x,y)) 容易找到但不是充要条件 f(x)=-log(x) I(x)=-log(p(x))
4、信息熵,对于2所提到的是:男足不夺冠即 I(X=0) 的信息量 与 男足夺冠即I(X=1) 的信息量;上面的每一个事件都被称为独立事件的信息量,那么对于随机变量男足是否夺冠I(x)的信息量是多少被称为信息熵,很明显用期望去代表这个信息熵:
经验熵:根据给定的已知样本集,计算样本集的香农熵为经验熵,如:(D为样本集合,k为样本类别数,Ck为每个类别的yan)样本数
决策树和信息熵:
熵可以表示样本集合的确定性,熵越大,样本的不确定越大,因此可以使用划分前后的集合熵的差值来判断该特征对于集合D的划分效果的好坏,决策树应该是最简单的分类算法了,其在节点分裂时有三种方式:信息增益,信息增益率,基尼指数
1、信息增益:信息增益=划分前集合熵-划分后集合熵 即 g(D,A) = H(D) - H(D|A)
对于待划分的数据集D,其 entroy(前)是一定的,但是划分之后的熵 entroy(后)是不定的,entroy(后)越小说明使用此特征划分得到的子集的不确定性越小(也就是纯度越高),因此 entroy(前) - entroy(后)差异越大,说明使用当前特征划分数据集D的话,其纯度上升的更快。而我们在构建最优的决策树的时候总希望能更快速到达纯度更高的集合,这一点可以参考优化算法中的梯度下降算法,每一步沿着负梯度方法最小化损失函数的原因就是负梯度方向是函数值减小最快的方向。同理:在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展,因此我们总是选择使得信息增益最大的特征来划分当前数据集D。
2、信息增益比:信息增益比=信息增益 * 惩罚因子
惩罚因子的计算方式如下,将某个特征作为随机变量,按照该特征对集合D进行划分,计算HA(D),再求其倒数:
之前是把集合类别作为随机变量,现在把某个特征作为随机变量,按照此特征的特征取值对集合D进行划分,计算熵HA(D)
3、基尼指数:样本被选中的概率 * 样本被分错的概率