引入
ID3算法是决策树系列中的经典算法之一,包含了决策树作为机器学习算法的主要思想。但ID3算法在实际应用中有诸多不足,因此之后提出了大量的改进算法,如C4.5算法和CART算法。
构造决策树的 核心问题 是在每一步如何选择 恰当的属性 对样本进行拆分。ID3算法使用信息增益进行属性选择度量,C4.5算法使用增益率进行属性选择度量,CART算法则使用基尼指数。
一、信息增益
信息增益,顾名思义,就是信息增加,带来的益处。
我们用一个比较通俗的例子来讲解这些概念。
场景设定:《非诚勿扰》节目
随机变量:牵不牵手
假设女嘉宾不知道下一个上场的男嘉宾的任何信息,接受下一个上场的男嘉宾的不确定性是0.84(意思就是要不要接受这个男嘉宾,变化会是很大的)
但是当听到主持人介绍说,这位男嘉宾收入高达年薪千万,女嘉宾接受这个男嘉宾的不确定性马上降低到了0.32,因为信息的增加,使得女嘉宾更确定了要跟这位男嘉宾在一起。
中间变化的这些就是信息增益量,0.84 - 0.32 = 0.52, 0.52是信息增益量,即知道收入这个条件带来的好处,使不确定性降低了
二、信息熵
表示随机变量的不确定性。
在上面例子中,表示的是一开始,女嘉宾不知道男嘉宾任何信息的情况下,牵不牵手的不确定性,也就是0.84。
香农借用物理学中表示分子状态混乱程度的熵,提出用信息熵描述信源的不确定性,也就是信息量的大小。
概率描述的是确定性,信息熵描述的是不确定性,是两个相反的概念。
信息熵和概率成反比。
信息熵和信息量成正比。
也就是说,一个事情发生的概率越低,不确定性越高,从不确定到确定这个过程中可描述的信息就越多,所以信息量就越高。
三、条件熵
根据上面的例子,我们来介绍一下条件熵。
条件熵,就是在一个条件下,随机变量的不确定性。
在上面的例子中就是,知道了男嘉宾的收入后,牵不牵手的不确定性是0.32。
四、小结
信息增益 = 熵 - 条件熵。
信息增益:表示在一个条件下,信息不确定性减少的程度。