【机器学习】决策树(上)

前言:决策树是一种基本的分类与回归算法。可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。
学习时,利用训练数据,根据损失函数最小化原则建立决策树模型。
学习包括3个步骤:特征选择、决策树的生成、决策树的修建

一、决策树模型 更多参照博文

分类决策树模型:是一种描述对实例进行分类的树形结构。由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。
分类过程:用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将其分配到其子结点;这时,每一个子结点对应着该特征的一个取值。递归地对实例进行测试并分配,直至达到叶结点。。最后将实例分到叶结点的类中。

二、学习过程:

决策树学习用损失函数表示这一目标
决策树学习的损失函数:通常是正则化的极大似然函数。
决策树学习的策略:是以损失函数为目标函数的最小化。
决策树学习的算法:通常是一个递归地选择最优特征,并根据这一特征对训练数据进行分割,使得对各个子数据集有一个最好的分类的过程。这一过程对应特征空间的划分,也对应着决策树的构建。

三、决策树的构建:开始,构建根结点,将所有训练数据都放在根结点。选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类。若这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去;若还有子集不能被正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点。如此递归,直至所有训练数据子集被基本正确分类,或者没有合适的特征为止。最后每个子集都被分到叶结点上,即都有了明确的类。这就生成了决策树。
以上方法生成的决策树可能对训练数据由很好的分类能力,但对未知测试数据未必有很好的分类能力,即可能发生过拟合现象。就需要对已生成的树自下而上进行剪枝,将树变得简单,从而使它具有更好的泛化能力。具体是:去掉过于细分的叶结点,使其回退到父节点,甚至更高的结点,然后将父节点或更高的结点改为新的叶结点。
由于决策树表示一个条件概率分布,所以深浅不同的决策树对应着不同复杂度的概率模型。
决策树的生成对应着模型的局部选择,只考了局部最优;
决策树的剪枝对应于模型的全局选择,考了全局最优。

四、熵
N个数据样本中的任意m个数据作为可以贷款的样本的所有情况w:
w=CmN=N!m!(Nm)!
对于银行来说,任意样本既可以当作贷款样本,也可以当作不能贷款样本,由此,w表示了样本的不确定性。
n1,n2 为变量,则 w(n1,n2)=N!n1!n2! 是关于 n1,n2 的函数,由此 n1,n2 的变化反映了w的变化。当 N=n1+n2 很大时,w将变得非常大。为了方便度量和剔除 N 的影响,定义函数 H(n1,n2)=1Nlnw=1NlnN!n1!n2! 表示上述组合的不确定性。数学中 String 公式: lnN!NlnNN 因此: H=1<

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值