目录
1 决策树:
1.1 介绍
决策树是属于有监督机器学习的一种,起源非常早,符合直觉并且非常直观,模仿人类做决策的过程,早期人工智能模型中有很多应用,现在更多的是使用基于决策树的一些集成学习的算法。这章我们把决策树算法理解透彻非常有利于后面去学习集成学习。
1.2 特点:
1.2.1 可以处理非线性问题。
什么是线性问题:多元线性回归,y=w1x1+ w2 x2+w3 x3这些x都是一次的。
优缺点:非线性意味着模型非常的复杂,在二维平面了很难找到一个直线去拟合,会变成一个曲线,这个曲线即可以是带有一定弯曲程度的曲线,也可以是非常弯曲的曲线,对于非常弯曲的曲线,往往会出现过拟合现象。过拟合的解决办法可以加正则项,然而正则项是基于w来加和,但是决策树没有w,决策树就是把分裂的条件就是模型。
决策树怎样防止过拟合呢? 减少树的深度可以解决过拟合,
1.2.2 可解释性强 ,没有theta
1.2.3模型简单 预测效率高,主要是if else判单
1.2.4 不容易显用函数表示的使达。甚至不可微分,不可导。
1.3 决策树模型的生成和预测
模型生成:通过大量数据生成一颗非常好的树,用这颗树来预测新来的数据。
预测:来一条新数据,按照生成好的树的标准,落到某一个节点上
1.4 决策树的数学表达式
整体表达方式
迭代表达方式
1.5 构建决策树数学表达
N样本数 ,Xn Yn 第n条样本
Def DecisionTree(D):
If 终止条件:
返回 x落入t路径的结果
else:
学习分列的条件:
根据分裂条件将D分成c个部分 Dc=符合分裂条件的所有数据
迭代(Dc)构建子树
返回
1.6 总结决策树流程和待解决问题?
- 将原始数据集进行筛选,分裂成子数据集
每次分成几份?答
以什么条件进行划分?:答 尽可能的把目标分开
- 对生成的子数据集不断分裂,直到停止
停止的条件是什么? 答 叶子节点的类别为同一类的时候 停止
- 利用最终生成的n份数据的共性来代表这个节点
如何用节点共性代表未来预测值?
分类问题:(1) 给出类别号:假设20个数据落到一个叶子节点,其中有18是类别a,2ge是类别b,我们给a (2)给出概率:上述我们给出18/20这个概率值
回归问题:一组数的的均值作为预测值
总结,决策树的生成说白了就是数据不断分裂的递归过程,每一次分裂,尽可能让类别一样的数据在树的一边,当树的叶子节点的数据都是一类的时候,则停止分裂。