机器学习算法优缺点及适用场景总结

不会写作文的李华

已于 2022-11-04 16:49:52 修改

阅读量2.3k

点赞数 2

分类专栏：机器学习文章标签：算法人工智能

于 2022-10-12 08:54:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40195360/article/details/126953951

版权

文章目录

机器学习算法优缺点及适用场景总结

机器学习算法优缺点及适用场景总结

1.线性回归

线性回归的目的是要得到输出向量Y和输入特征X之间的线性关系，求出线性回归系数θ,也就是 $Y = X * θ + ξ$ 。其中Y的维度为 $m * 1$ ，X的维度为 $m * n$ ，而θ的维度为 $n * 1$ 。m代表样本个数，n代表样本特征的维度。

为了得到线性回归系数θ，我们需要定义一个损失函数，一个极小化损失函数的优化方法，以及一个验证算法的方法。损失函数的不同，损失函数的优化方法的不同，验证方法的不同，就形成了不同的线性回归算法。
在这里插入图片描述

scikit-learn中的线性回归算法库可以从这这三点找出各自的不同点。理解了这些不同点，对不同的算法使用场景也就好理解了。

1. LinearRegression

损失函数：
LinearRegression类就是我们平时说的最常见普通的线性回归，它的损失函数也是最简单的，如下：
$J(\mathbf\theta) = \frac{1}{2}(\mathbf{X\theta} - \mathbf{Y})^T(\mathbf{X\theta} - \mathbf{Y})$

损失函数的优化方法：

对于这个损失函数，一般有梯度下降法和最小二乘法两种极小化损失函数的优化方法，而scikit中的LinearRegression类用的是最小二乘法。通过最小二乘法，可以解出线性回归系数θ为：
$\mathbf{\theta} = (\mathbf{X^{T}X})^{-1}\mathbf{X^{T}Y}$
验证方法：

LinearRegression类并没有用到交叉验证之类的验证方法，需要我们自己把数据集分成训练集和测试集，然后训练优化。

使用场景：

一般来说，只要我们觉得数据有线性关系，LinearRegression类是我们的首先。如果发现拟合或者预测的不好，再考虑用其他的线性回归库。如果是学习线性回归，推荐先从这个类开始第一步的研究。

2. Ridge

损失函数：

由于第一节的LinearRegression没有考虑过拟合的问题，有可能泛化能力较差，这时损失函数可以加入正则化项，如果加入的是L2范数的正则化项，这就是Ridge回归。损失函数如下：

$J(\mathbf\theta) = \frac{1}{2}(\mathbf{X\theta} - \mathbf{Y})^T(\mathbf{X\theta} - \mathbf{Y}) + \frac{1}{2}\alpha||\theta||_2^2$

其中α为常数系数，需要进行调优。||θ||2为L2范数。

Ridge回归在不抛弃任何一个特征的情况下，缩小了回归系数，使得模型相对而言比较的稳定，不至于过拟合。

损失函数的优化方法：

对于这个损失函数，一般有梯度下降法和最小二乘法两种极小化损失函数的优化方法，而scikit中的Ridge类用的是最小二乘法。通过最小二乘法，可以解出线性回归系数θ为：

$\mathbf{\theta = (X^TX + \alpha E)^{-1}X^TY}$
其中E为单位矩阵。

验证方法：

Ridge类并没有用到交叉验证之类的验证方法，需要我们自己把数据集分成训练集和测试集，需要自己设置好超参数α。然后训练优化。

使用场景：

一般来说，只要我们觉得数据有线性关系，用LinearRegression类拟合的不是特别好，需要正则化，可以考虑用Ridge类。但是这个类最大的缺点是每次我们要自己指定一个超参数α。如果输入特征的维度很高，而且是稀疏线性关系的话，Ridge类就不合适了。这时应该主要考虑Lasso回归类。

3. Lasso

损失函数：

线性回归的L1正则化通常称为Lasso回归，它和Ridge回归的区别是在损失函数上增加了的是L1正则化的项，而不是L2正则化项。L1正则化的项也有一个常数系数α来调节损失函数的均方差项和正则化项的权重，具体Lasso回归的损失函数表达式如下：

$J(\mathbf\theta) = \frac{1}{2m}(\mathbf{X\theta} - \mathbf{Y})^T(\mathbf{X\theta} - \mathbf{Y}) + \alpha||\theta||_1$

其中n为样本个数，α为常数系数，需要进行调优。||θ||1为L1范数。

Lasso回归可以使得一些特征的系数变小，甚至还是一些绝对值较小的系数直接变为0。增强模型的泛化能力。

损失函数的优化方法：

Lasso回归的损失函数优化方法常用的有两种，坐标轴下降法和最小角回归法。Lasso类采用的是坐标轴下降法

验证方法：

Lasso类并没有用到交叉验证之类的验证方法，和Ridge类类似。需要我们自己把数据集分成训练集和测试集，需要自己设置好超参数α。然后训练优化。

使用场景：

一般来说，对于高维的特征数据，尤其线性关系是稀疏的，我们会采用Lasso回归。或者是要在一堆特征里面找出主要的特征，那么Lasso回归更是首选了。但是Lasso类需要自己对α调优。

2.LR：逻辑回归

在这里插入图片描述

二元逻辑回归模型的一般形式：

$h_{\theta}(X) = \frac{1}{1+e^{-X\theta}}$

X为样本特征矩阵，为mxn的维度，hθ(x)为模型输出，为 mx1的维度，可以理解为某一分类的概率大小。而θ为分类模型的要求出的模型参数，为nx1的向量。

损失函数：
用最大似然法来推导出我们的损失函数：
$J(\theta) = -Y^Tlogh_{\theta}(X) - (E-Y)^T log(E-h_{\theta}(X))$

损失函数的优化方法：
对于二元逻辑回归的损失函数极小化，有比较多的方法，最常见的有梯度下降法，坐标轴下降法，等牛顿法等。这里推导出梯度下降法中θ每次迭代的公式。

$\theta = \theta - \alpha X^T(h_{\theta}(X) - Y )$

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。