【机器学习】决策树（上）

最新推荐文章于 2022-10-03 16:31:19 发布

VIP文章张小莹说她很忙

最新推荐文章于 2022-10-03 16:31:19 发布

阅读量837

点赞数

分类专栏：监督学习分类算法文章标签：机器学习算法决策树算法

本文链接：https://blog.csdn.net/zyy848877920/article/details/78982445

版权

前言：决策树是一种基本的分类与回归算法。可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。
学习时，利用训练数据，根据损失函数最小化原则建立决策树模型。
学习包括3个步骤：特征选择、决策树的生成、决策树的修建

一、决策树模型 更多参照博文

分类决策树模型：是一种描述对实例进行分类的树形结构。由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。
分类过程：用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将其分配到其子结点；这时，每一个子结点对应着该特征的一个取值。递归地对实例进行测试并分配，直至达到叶结点。。最后将实例分到叶结点的类中。

二、学习过程：

决策树学习用损失函数表示这一目标。
决策树学习的损失函数：通常是正则化的极大似然函数。
决策树学习的策略：是以损失函数为目标函数的最小化。
决策树学习的算法：通常是一个递归地选择最优特征，并根据这一特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。这一过程对应特征空间的划分，也对应着决策树的构建。

三、决策树的构建：开始，构建根结点，将所有训练数据都放在根结点。选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。若这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去；若还有子集不能被正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点。如此递归，直至所有训练数据子集被基本正确分类，或者没有合适的特征为止。最后每个子集都被分到叶结点上，即都有了明确的类。这就生成了决策树。
以上方法生成的决策树可能对训练数据由很好的分类能力，但对未知测试数据未必有很好的分类能力，即可能发生过拟合现象。就需要对已生成的树自下而上进行剪枝，将树变得简单，从而使它具有更好的泛化能力。具体是：去掉过于细分的叶结点，使其回退到父节点，甚至更高的结点，然后将父节点或更高的结点改为新的叶结点。
由于决策树表示一个条件概率分布，所以深浅不同的决策树对应着不同复杂度的概率模型。
决策树的生成对应着模型的局部选择，只考了局部最优；
决策树的剪枝对应于模型的全局选择，考了全局最优。

四、熵
N个数据样本中的任意m个数据作为可以贷款的样本的所有情况w：
$w=C_N^m=\frac{N!}{m!(N-m)!}$
对于银行来说，任意样本既可以当作贷款样本，也可以当作不能贷款样本，由此，w表示了样本的不确定性。
设 $n_1, n_2$ 为变量，则 $w(n_1, n_2)=\frac{N!}{{n_1!}{n_2!}}$ 是关于 $n_1, n_2$ 的函数，由此 $n_1, n_2$ 的变化反映了w的变化。当 $N=n_1+n_2$ 很大时，w将变得非常大。为了方便度量和剔除 $N$ 的影响，定义函数 $H(n_1, n_2)=\frac 1N lnw=\frac1 N ln \frac{N!}{n_1!n_2!}$ 表示上述组合的不确定性。数学中 $String$ 公式： $ln N!～N ln N-N$ 因此： H=1<

最低0.47元/天解锁文章

张小莹说她很忙

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】决策树（上）

前言：决策树是一种基本的分类与回归算法。可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。学习时，利用训练数据，根据损失函数最小化原则建立决策树模型。学习包括3个步骤：特征选择、决策树的生成、决策树的修建一、决策树模型更多参照博文分类决策树模型：是一种描述对实例进行分类的树形结构。由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点
复制链接

扫一扫