人工智能初学- 1.1 决策树

  • 决策树理论思想

决策树是以实例为基础的归纳学习算法

        它从一组无次序,无规则的元组中推理出决策树表示形式的分类规则。他采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同属性值向下分支。叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则。整个决策树就对应着一组析取表达式规则。

        决策树能帮助人或机器做出决策。实际应用中包括,推荐系统,CRM 系统。

        决策树优点:计算量小,显示清晰。缺点,容易过拟合。对时间顺序的数据,需要很多预处理的工作等。

        对于构建决策树的范例可以参考:https://www.cnblogs.com/liwenqiao/p/5424517.html

 

  • 信息熵

信息熵就是用来描述信息量的不确定度。

       香浓引入信息熵,将其定义为离散事件出现的概率,一个系统越是信息量低,信息熵就越低,信息熵可以认为是系统有序化程度的度量。

      熵的计算

      假如一个随机变量的取值为 X ={x1,x2,...xn}  .每一种取到的概率为 P ={p1,p2,...pn} ,那么熵的定义为:

      H(X) = -\sum_{i=1}^{N} p(x_{i})log_{2}p(x_{i})

      意思是一个变量的变化情况越多,他携带的信息量就越大。

具体分析可以参考   https://blog.csdn.net/kuang_liu/article/details/21469553

 

  • 信息增益

在划分数据集之前之后信息发生的变化称为信息增益。信息增益最高的特征就是最好的选择。

       信息增益是针对一个一个特征而言的。就是看一个特征T,相对于系统有它和没它时的信息量各是多少(条件熵),两者的差值就是这个特征给整个系统带来的信息量,即信息增益。

        IG(T)=H(X)-H(X|T) =-\sum_{i=1}^{N} p(x_{i})log_{2}p(x_{i}) +\sum_{t=1}^{M}p(t)\sum_{i=1}^{N}p(x_{i}|t)log_{2}p(x_{i}|t)

 

具体计算范例可以参考  https://www.cnblogs.com/muzixi/p/6566803.html

https://blog.csdn.net/happy_road/article/details/78489882

https://www.cnblogs.com/mfrbuaa/p/3931706.html

 

  • 决策树的生成
  1. ID3算法

ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征,递归的构建决策树。

具体做法:

从根节点开始,对节点计算所有可能特征的信息增益,选择信息增益最大的特征作为节点的特征,由该节点不同取值建立子节点,再对子节点递归的调用,构建决策树,直到所有的特征的信息增益均最小,或没有特征选择为止。最后得到一个决策树。

缺点:ID3算法是按照信息增益来完成树的创建,倾向于选择更加复杂的特征属性,所以该算法生成的树容易产生过拟合。

   2. C4.5算法

C4.5算法对ID3算法进行了改进,生成过程中,用信息增益来选择特征。

信息增益率就是信息增益除上特征属性自己的熵,这样就进行了修正。

特征X的熵:

H(X) = -\sum_{i=1}^{N} p(x_{i})log_{2}p(x_{i})

特征X的信息增益:

IG(X) = H(c)-H(c|X)

那么信息增益比:

g_{r}=\frac{\mathrm{H(c)-H(c|X)} }{\mathrm{H} (X)}

可参考https://blog.csdn.net/bitcarmanlee/article/details/51488204

 

 

  • 6
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值