决策树快问快答

决策树是数据挖掘的一个重要分支,这里分享一下学习心得。仅讨论what和why,不涉及how.

  1. 什么是决策?
    决策是人类天天干的事情,如中午吃啥,股票买啥。

  2. 什么是决策树?
    为决策而构建的树。它是人类知识的一种体现,因此具有天然的可解释性优势。
    如图1所示,出门前先看天气,如果出太阳,就走第1个分支。如果湿度为正常,则走接下来的第2个分支。最终决定去打网球。
    在这里插入图片描述图1. 决策树例

  3. 决策树的有哪些获得方式?
    别人(老师、师父)教,自己从实际工作中总结,利用机器从实际数据中学习。

  4. 决策树生成算法的核心是什么?
    确定当前数据使用哪个属性来分割。不同的算法可能使用不同的属性。

  5. 属性选择的根据是什么?
    哪个属性把数据能分得更纯一些。所谓的“纯”与“混乱”所对应。相应地,有属选择的启发式信息。

  6. 有哪些常见的启发式信息?
    信息增益(离散属性)、信息增益率(连续属性)、基尼指数。

  7. 为什么计算信息增益时,仅考虑单个属性?
    决策树的构建是递归的。把数据分成几个子集后,每个子集考虑自己的根结点所采用的属性即可。

  8. 如何评价决策树的好坏?
    使用测试集,分类精度越高的决策树越好。如果是非平衡数据,或本身带误分类代价数据,应采用平均误分类代价。

  9. 为什么基于信息增益的决策树获得了最大的成功?
    在保证训练集中精度的条件下,它在绝大多数情况下能够获得最小(叶节点最少)的决策树。

  10. 为什么决策树越小越好?
    根据奥克姆剃刀原理,知识表达越简洁,泛化能力越强。

  11. 如果决策树太大了怎么办?
    剪枝,牺牲训练集上的精度,提高泛化能力,最终提高测试集上的精度。

  12. 有哪些剪枝技术?
    前剪枝、后剪枝。

  13. 决策树的分界面都是平行于坐标轴的,有时效果不好,怎么办?
    使用Oblique决策树,它可以考虑多个属性的融合。

  14. 决策树的目标函数是什么?
    很多机器学习算法(如线性回归)有目标函数,并可以利用梯度下降法(或更直接的矩阵运算)求最优解。由于树型比(线性回归的)超平面复杂,Quinlan并未给出ID3决策树的目标函数。如果强行要写的话,其基础为分类误差,正则项与树的大小相关。遗憾的是,即使写出来了,也无法直接求解。

  15. 如果数据有缺值怎么办?
    修改相应的启发式信息计算公式,同时考虑缺值的比例。

  16. 无法处理图像数据怎么办?
    先用神经网络(含深度网络)输出特征向量,再基于它构建和使用决策树。

根据反馈再增加内容…

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值