李宏毅机器学习笔记——3-回归

最新推荐文章于 2024-09-30 13:17:10 发布

qq_43389139

最新推荐文章于 2024-09-30 13:17:10 发布

阅读量162

点赞数

文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/qq_43389139/article/details/118740307

版权

本文详细阐述了回归分析的四个核心步骤：1) 模型选择，通常从线性回归开始；2) 判断拟合优度，通过损失函数最小化确定最优模型；3) 使用梯度下降法求取模型参数；4) 泛化性能评估，防止过拟合，通过正则化提升模型稳健性。

摘要由CSDN通过智能技术生成

回归的定义不做多的介绍了，本文主要总结做回归分析的几大关键步骤：

1. 第一步，依旧是选择合适的模型。我们通常根据散点图来观察样本特点，并选取要拟合模型。线性回归是最简单直接的回归模型，其他任何模型都可以看做线性回归的延伸，如逻辑回归和广义线性回归。

2.第二步，判断拟合优度。首先是选取正确的模型结构，当样本选取不足时，我们很容易靠主观感受选择错误的初始模型。解决此问题的方法是选择足够多的样本点。当样本量足够大时，我们对数据分布会有更加准确的认识，从而选择正确的拟合模型。其次是选取模型参数，选取合适的损失函数作为拟合优度，通过损失函数最小化，求出模型参数，进而得到最优模型。通常采用最小二乘法作为回归模型的损失函数。

3.第三步，梯度下降法求参数。在实际操作中，最小二乘法的计算过程可能极为复杂，计算机通常采用梯度下降法求最优模型参数。梯度下降法的基本思想是，通过判断导数正负，使目标点永远向更低处移动，直至达到全局最低点。具体步骤为：先在损失函数曲线上选取初始点w0，若此点导数值为正，则后退一步，若导数值为负，则前进一步，导数为零时，不再变动。

4.第四步，泛化性能判断。我们通过训练集绘制出拟合曲线，但“最佳”拟合曲线在测试集上可能出现水土不服，即拟合效果欠佳。此种情况我们通常称之为过拟合，过拟合会导致模型的泛化性能很差，使得模型只能适用于训练集，而无法用于其他测试集，从而失去预测性能。解决此问题通常有两种方法。一是将训练集上训练好的模型，拿到测试集上进行泛化性能判断，以测试集的预测误差最小化为目标，进一步选取最优模型。二是将系数正则化，通过设置惩罚函数控制系数大小，进而提高模型光滑度，提高泛化性能。