机器学习算法:决策树

决策树

适用问题:多类分类,回归
模型类型:判别模型
模型特点:分类树、回归树
学习策略:正则化的极大似然估计
学习的损失函数:对数似然损失
学习算法:特征选择 树的生成 树的剪枝

总结:
1.分类决策树模型是表示基于特征对实例进行分类的树形结构。决策树可以转换成一个if-then规则的集合,也可以看作是定义在特征空间划分上的类的条件概率分布。
2.决策树学习旨在构建一个与训练数据策树是NP报合用好并且复杂度小的决复NP完全问题.现实中采用自
发式方法学习次优的决策树。
决策树学习算法包括三部分:特征选择、树的生成和树的剪枝,常用的算法有ID3、C4.5 和CART.
3.特征选择的目的在于选取对训练数据能够分类的特征.二战选择的关键是其准则。常用的准则如下:
(1)样本集合D对特征A的信息增益(ID3)

其中,H(D) 是数据集D的熵,H(D)是数据集D的熵,H(D|A)是数据集D对特征A的条件熵。D是D中特征A取第i个值的样本子集,C是D中属于第k类的样本子集。n是特征A取值的个数,K是类的个数.
(2)样本集合D对特征A的信息增益比(C4.5)

其中,g(D.A)是信息增益,H,(D)是 D.关于特征的值的熵。
(3)样本集合D的基尼指数(CART)

4.决策树的生成。通常使用信息增益最大、信息增益比最大或基尼指数最小作为特征选择的准则.决策树的生成往往通过计算信息增益或其他指标,从根结点开始,递归地产生决策树.这相当于用信息增益或其他准则不断地选取局部最优的特征,或将训练集分割为能够基本正确分类的子集,
5.决策树的剪枝,由于生成的决策树存在过拟合问题,需要对它进行剪枝,以简化学到的决策树,决策树的剪枝,往往从已生成的树上剪掉些叶结点或叶结点以上的子树,并将其父结点或根结点作为新的叶结点,从而简化生成的决策树.

一、决策树(例5.2)
1.定义:对实例进行分类的树形结构,由决策树和有向边组成。分类时,从根节点开始,对实例的某一节点进行测试,根据测试结果将实例分配到子节点如此递归的将实例来进行测试并分配,直至达到叶节点。
2.步骤:
特征选择 ——判断标准
决策树的生成 ——自然景观
决策树的修剪 ——人工花园
3.优缺点 :
优点:
模型具有可读性、分类速度快、可以处理连续和种类字段
缺点:
对连续性的字段比较难预测。
对有时间顺序的数据,需要很多预处理的工作。
当类别太多时,错误可能就会增加的比较快。
一般的算法分类的时候,只是根据一个

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值