原创: 傅佳 Refinitiv创新实验室ARGO 9月24日
专家审核:吴攀 石海龙 谭伟
审 核:陈超 施天璐 wk
"本篇包含少量基本数学公式,阅读需要约7分钟"
上次我们公众号发表了决策树算法的文章,这次基于决策树算法,我们进一步阐述其进阶算法--随机森林(RF),本文主要将五个方面阐述。
-
什么是随机森林
-
相关基本概念
-
算法介绍
-
sklearn库参数
-
知识扩展
一 什么是随机森林
为什么会出现随机森林,就要从决策树讲起。决策树优点很多,比如可解释性强,符合人类理解,运算速度快等。 但最大的缺点是,剪枝后也容易过拟合。2001年出现了随机森林算法,缓解了这一问题。
那什么是随机森林? 简而言之,就是随机生成一片由决策树构成的森林。
但随机森林的生成面临两个主要问题。 因为基于同样的数据,同样的特征,按照同样的决策树算法,只能建一颗树,同样的树复制上千万次没有意义,所以建立随机森林的第一个问题就是---怎么建立不同的树。其次,如果建立了不同的树组成的森林后,每个树都会得到自己的分类结果,如何从每棵树的各自决策下得到总体最终的结果呢? 这就是随机森林面临的第二个问题。
二 相关基本概念
在进入随机森林的讲解之前,我们先回顾一下决策树的一些核心概念。
a 信息量,信息熵,信息增益及基尼不纯度
1) 信息量
【概念】 信息多少的度量,它有如下特点
-
单调性,信息量和事件发生的概率有关,事件发生的概率越低,信息量越大。
-
非负性,信息量应该是非负的,必然发生的事件信息量为0。
-
累加性,两个事件的信息量可以相加,并且两个独立事件的联合信息量应该是它们各自信息量的和
【数学公式】
为什么用以二为底的对数,简单的理解,因为log函数能满足第2第3个条件,加上负号就满足了第一个条件,而用2为底是跟信息论里说的字节位数相关。
例如,德国队获的世界杯冠军,概率相对比较大,比如50%,则相应的信息量为 中国队获得世界杯冠军,因为中国队获取世界杯冠军的概率很低,比如0.1%,这个信息量则为 所以当它发生时,就会引发大家广泛讨论,去挖掘它产生的原因 |
2) 信息熵(Entropy)
【概念】用来度量随机变量的不确定