《机器学习实战》笔记（第二部分利用回归预测数值型数据）

最新推荐文章于 2022-09-26 20:37:21 发布

schdut

最新推荐文章于 2022-09-26 20:37:21 发布

阅读量741

点赞数

分类专栏：机器学习默认文章标签：机器学习 CART

本文链接：https://blog.csdn.net/shengchaohua163/article/details/79350840

版权

默认同时被 2 个专栏收录

91 篇文章 8 订阅

订阅专栏

机器学习

35 篇文章 0 订阅

订阅专栏

采用书籍《机器学习实战》，人民邮电出版社，2013年6月第1版。在线资料：英文资料，中文资料，后者中可以找到源代码和勘误。关于机器学习实战的博客已经有很多，所以本博文仅将书中的知识点进行整理和扩展。

第二部分利用回归预测数值型数据

第8章预测数值型数据：回归

分类预测的目标变量是标称型数据，而本章的回归预测的目标变量是连续型数据。回归的目的是预测数值型的目标值，方法是训练（拟合）已有数据找到最佳回归系数。一旦有了回归系数，就可以对其他输入进行预测了。
回归分为线性回归和非线性回归。本章只介绍线性回归，非线性回归不做讨论。
优点：结果易于理解，计算上不复杂；缺点：对非线性的数据拟合不好；适用数据类型：数值型和标称型数据，标称型数据需要转成二值型数据。
线性回归的目标：最小化误差平方和，误差是指用回归系数预测的y值与真实y值之间的差值。误差平方和的普通表示和矩阵表示： $\sum i = 1 m (x T i θ - y i) 2, (X θ - Y) T (X θ - Y)$ $\sum_{i=1}^{m}(x_i^T\theta-y_i)^2, (X\theta-Y)^T(X\theta-Y)$ 对w求导，得到 $X^T(Y-Xw)$ ，令其等于0，解出 ${\theta=(X^TX)^{-1}X^Ty}$ ，此时的解w表示为当前可以估计出的最优解。公示中包含对矩阵求逆，因此这个方程只在逆矩阵存在的时候使用，不存在的话就不能用这种方法。
线性回归的一个问题是有可能出现欠拟合现象，因为它求的是具有最小均分误差的无偏估计。如果模型欠拟合将不能取得最好的预测效果，有些方法允许在估计中引入一些偏差，从而降低预测的均方误差。其中的一个方法叫做局部加权线性回归（Locally Weighted Linear Regression）：给待预测点附近的每个点赋予一定的权重，在这个子集上基于最小均方差进行普通的回归。局部线性回归增加了计算量，对每个点进行预测时都必须使用整个数据集拟合一次回归系数，提高了拟合程度但降低了效率。
LWLR使用“核”来对附近的点赋予更高的权重，核的类型可以自由选择，最常用的核就是高斯核： $W (i, i) = e x p (| x ( i ) - x | - 2 k 2)$ $W(i,i)=exp(\frac{|x^{(i)}-x|}{-2k^2})$ W是只有对角元素的权重矩阵。x与训练数据x(i)距离越小，权重W(i,i)将会越大；需要人工指定的参数k也决定了权重大小：k越小，权重越小。
缩减系数来理解数据：如果特征比样本点还多，说明输入数据的矩阵X不是满秩矩阵。岭回归（Ridge regression）用来解决这个问题，也叫做线性回归的L2正则化。它在一般线性回归的损失函数上增加了一个L2正则化的惩罚项（ $||\theta||_2$ 表示系数向量中每个元素的平方和再求平方根）： $J (θ) = 1 2 (X θ - Y) T (X θ - Y) + 1 2 λ | | θ | | 22$ ${J(\theta)=\frac{1}{2}(X\theta-Y)^T(X\theta-Y)+\frac{1}{2}\lambda||\theta||_2^2}$ 求解回归系数： $θ = (X T X + α E) - 1 X T Y$ ${\theta = (X^TX + \alpha E)^{-1}X^TY}$ Ridge回归在不抛弃任何一个特征的情况下，缩减了回归系数，使得模型相对而言比较的稳定，但和Lasso回归比，这会使得模型的特征留的特别多，模型解释性差。为了使用岭回归和缩减技术，需要对数据特征进行归一化处理
缩减系数的另一种方法：lasso回归，也叫做线性回归的L1正则化。它在一般线性回归损失函数上增加了一个L1正则化的项（ $||\theta||_1$ 表示系数向量中每个元素的绝对值之和），L1正则化的项有一个常数系数α来调节损失函数的均方差项和正则化项的权重： $J (θ) = 1 2 (X θ - Y) T (X θ - Y) + α | | θ | | 1$ $J(\theta) = \frac{1}{2}(\mathbf{X\theta} - \mathbf{Y})^T(\mathbf{X\theta} - \mathbf{Y}) + \alpha||\theta||_1$ Lasso回归可以使得一些特征的系数变小，甚至还是一些绝对值较小的系数直接变为0，增强模型的泛化能力。前向逐步回归算法可以得到与lasso差不多的效果，而且更加简单：贪心算法，每一步都尽可能减小误差，帮助人们理解现有的模型。
还有其他缩减方法，如Lar，PCA回归等等。使用缩减方法使得模型增加了偏差（bias），但减小了模型的方差（variance）。方差衡量了模型的复杂度，训练样本数据返回模型的变化程度（比如线性回归，用数据集的不同样本进行拟合得到不同的回归系数，系数间的差异大小也就是模型方差大小的反映）。参考1.机器学习中的偏差(bias)和方差(variance) 参考2.偏差和方差有什么区别？
小结：回归是统计学中最有力的工具之一。在回归方程里，求最佳回归系数的方法是最小化误差平方和。岭回归是缩减系数的一种方法，对回归系数进行了限制；lasso也是一种很好的缩减发，虽然难以求解，但可以使用见百年的逐步线性回归方法求得近似结果。

第9章树回归

回归树用的是CART（Classification And Regression Tree）算法，分类回归树，该算法不仅能进行回归，也能进行分类。生活中很多问题都是非线性的，不可能使用全局线性模型。一种可行的方法是将数据集切分成很多份易建模的数据，然后利用线性回归技术建模。如果首次切分后仍难以拟合线性模型就继续切分，在这种切分模式下，树结构和回归法相当有用。
之前介绍的决策树构建算法是ID3。ID3每次选取当前最佳的特征来分割数据，并按照该特征的所有可能来切分。这种切分过于迅速，CART是二元切分法，它易于对树构建过程进行调整以处理连续性特征。ID3不能处理连续性特征，除非进行离散化处理，而二元切分则易于处理连续型数据。
优点：可以对复杂和非线性的数据建模；缺点：结果不易理解；适用数据类型：数值型和标称型数据。
树回归的一般方法：
(1)收集数据：采用任意方法收集数据
(2)准备数据：需要数值型的数据，标称型数据应该映射成二值型数据
(3)分析数据：会出数据的二位可视化显示结果，以字典方式生成树
(4)训练算法：大部分时间都花费在姐也点树模型的构建上
(5)测试算法：使用测试数据上的R2值来分析模型的效果
(6)使用算法：使用训练出的树做预测，预测结果还可以用来做很多事情
CART可以构建两种数：一种是回归树，每个叶节点包含单个值；第二种是模型书，每个叶节点包含一个线性方程（分段线性函数），模型树由多个线性片段组成。
一棵树如果节点过多，表明该模型可能对数据进行了“过拟合”。通过降低决策树的复杂度来避免过拟合的过程称为剪枝（pruning）。树剪枝技术可以防止树的过拟合：预剪枝和后剪枝。
小结：对于非线性关系，可以使用树来对预测值分段，包括分段常数和分段直线。叶节点使用的模型是分段常数则成为回归树，叶节点使用的模型是线性回归方程则称为模型数。CART算法可以用于构建二元树并处理离散型或连续性数据。树回归学习不深，参考其他博客吧，尴尬

参考资料：

schdut

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《机器学习实战》笔记（第二部分利用回归预测数值型数据）

采用书籍《机器学习实战》，人民邮电出版社，2013年6月第1版。在线资料：英文资料，中文资料，后者中可以找到源代码和勘误。关于机器学习实战的博客已经有很多，所以本博文仅将书中的知识点进行整理和扩展。第二部分利用回归预测数值型数据第8章预测数值型数据：回归分类预测的目标变量是标称型数据，而本章的回归预测的目标变量是连续型数据。回归的目的是预测数值型的目标值，方法是训...
复制链接

扫一扫