机器学习之决策树:一、算法原理

目录

一、算法介绍

二、概念介绍

2.1、信息熵

2.2、信息增益与信息增益率 

2.3、基尼系数 

三、决策树的优缺点 

四、决策树的剪枝 

五、决策树的构建算法 


一、算法介绍

决策树(Decision tree)是一种基本的分类与回归算法,本次博客只讨论用于分类的决策树。

决策树,顾名思义,是一种基于树结构的决策选择模型,表示基于特征对实例分类的过程。它可以认为是if-then的规则集合,也可以认为是特征空间上的条件概率分布。决策树依据对某种特征的满足与否进行子集划分,整棵树的节点分为内部节点和叶子节点,内部节点对应作为划分依据的特征,叶子节点表示满足从根节点到该叶子节点路径上所有属性要求的实例的分类。 

如下图所示(圆表示内部节点,方框表示叶子节点): 

规定决策树的左子树表示满足父节点的要求,右子树表示不满足。如上图所示,第一象限的点表示满足X>0为真并且满足Y>0为真,即满足从根节点到该叶子节点路径上的所有要求, 最终确定了象限分类。

二、概念介绍

2.1、信息熵

熵是由被评为20世纪最聪明的人之一的克劳德·香农提出的。作为信息论的创始人,有人这样评价他,“贝尔实验室和MIT的很多人将香农与爱因斯坦相提并论,但有些人认为这是不公平的——对香农不公平。”

熵是用来衡量信息的不确定程度的物理量,熵的值越大,信息的混乱程度就越大,熵的值越小,信息的混乱程度就越低。

设离散变量X的概率分布为:                          \large P(X=x_{i})=p_{i} i = 1,2,3....n

那么随机变量X的熵定义为:                                     \large H(X)=-\sum_{i=1}^{n}p_{i}logp_{i} 

此处log的底一般为2或者自然对数e,本博客中取e作为底,熵的单位为bit,若p=0,那么认为plogp=0。

上图的信息熵为: 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值