在学习随机森林算法之前,首先需要对一些基础知识有一些了解。
1 信息、熵,信息增益及决策树
在学习任何跟决策树有关的算法时,都会接触到题目中的这几个概念,理解这几个概念有助于以后的学习,废话不多说。
1.1 信息
信息这个概念真的极其的抽象,看了很多博主的文章感觉还是理解不了,再看看香农的话,信息是用来消除随机不确定性的东西,更让人不知所云。
要理解信息的概念,就必须了解信息含量这个东西是如何去量化的,举个例子:小明说“明天NBA总决赛骑士VS勇士,我觉得骑士赢!”和小王说“明天NBA总决赛骑士VS勇士第四场,之前比分为3:0,我觉得骑士赢定了”。NBA总决赛谁会最终取得胜利这个不得而知,是一个不确定事件,但是相比于小明的话,小王的话显得更让人信服,因为小王提供了更多的信息,让一个不确定的事件变得似乎更确定了,所以信息的量化跟不确定性的变化趋势是相关的,当一个事件由不确定变得似乎确定时,说明提供给该事件的信息量得到了增加,如果提供的信息不影响事件的确定性,则说明信息量没有增加,比如:你说“明天太阳会从东边升起来”,就算你把这句话说一百遍,然后给我一堆解释为什么太阳要从东边升起,但是对于事件本身来说信息量没有丝毫的增加,因为这个事件本身就是确定的,任何话都不会改变这个事件的确定性。
那么这个不确定性的变化跟什么有关了?
1.跟事情的可能结果的数量有关
2.跟事件结果发生概率有关
我们该如何用数学公式来表示信息量呢?某类信息量的定义公式如下:
I(X=xi)=−log2p(xi) I ( X = x i