决策树的基本知识(上期的东西有的不细,这次补充一下)
说明:这篇博客是看周志华老师的《机器学习》(西瓜书)的笔记总结,仅供学习交流,不做商业用途。
借鉴未名湖畔的落叶
借鉴致敬大神
借鉴maershii
决策树,顾名思义,是通过一个个的判断来形成一个类似于树状的结构,如图:
好了,现在你已经对决策树有了基本的概念,然后我们接着介绍:
熵:一种事务的不确定性。
信息:用来消除不确定的事物。功能有三:调整概率,排除干扰,确定情况。
怎么理解这两个东西呢:这就要用买西瓜(因为西瓜书,所以买西瓜)的例子了,你怎么知道你要买的西瓜是不是熟的呢?这个不确定性就是熵。然后你可能会用瓜的特征来判断,比如:纹理,根蒂,触感,色泽。这些特征就是信息,帮助你判断西瓜是否熟了,是不是理解了信息的作用?
噪音:不能消除某人对某件事情不确定的事务。
数据=信息+噪音
社会上的数据千千万,对你有用的叫信息,无用的是噪音。决策树就是要尽量实现对信息的处理和减弱噪音对数据分析的影响。
熵如何度量:公式:
例如:你有多枚硬币,你抛n枚,则结果为2^n种,这时熵课量化为n,所以若一种事情的概率是10种,那么熵量化为log2(10)。
简单的了解了熵的量化后,我们开始给出公式:信息熵:
“信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,……,y)。
注:信息熵的值越小,D的纯度越高。
主要的决策树算法有:ID3,C4.5,C5.0,CART,CHAID,SLIQ,SPRINT。 因为笔者学习进度限制,这篇博客不会讲全,以后的博客会更新。哈哈
信息增益(决策树ID3训练算法)
信息增益的计算过程是一个递归的过程,口述反而容易让读者迷糊,请看链接的视频,随博主走一遍,你恍然大悟。看这,致敬大神
增益率(决策树C4.5训练算法):
因为信息增益会对可取值数目较多的属性有所偏好。
所以引入增益率,但是会对可取值数目少的属性有所偏好,C4.5算法流程与ID3相类似,只不过将信息增益改为信息增益比。
基尼指数:
继续看大神生动的讲解,但是视频有错,应该是基尼指数越小,纯度越高,注意理解
剪枝处理:为了防止在训练集上表现的很好,但是在验证集上表现得未必很好,因此要进行剪枝处理。为了提升精度,用剪枝处理判断是否需要继续细分下去。