李宏毅机器学习笔记——3-回归

本文详细阐述了回归分析的四个核心步骤:1) 模型选择,通常从线性回归开始;2) 判断拟合优度,通过损失函数最小化确定最优模型;3) 使用梯度下降法求取模型参数;4) 泛化性能评估,防止过拟合,通过正则化提升模型稳健性。
摘要由CSDN通过智能技术生成

回归的定义不做多的介绍了,本文主要总结做回归分析的几大关键步骤:

1. 第一步,依旧是选择合适的模型。我们通常根据散点图来观察样本特点,并选取要拟合模型。线性回归是最简单直接的回归模型,其他任何模型都可以看做线性回归的延伸,如逻辑回归和广义线性回归。

2.第二步,判断拟合优度。首先是选取正确的模型结构,当样本选取不足时,我们很容易靠主观感受选择错误的初始模型。解决此问题的方法是选择足够多的样本点。当样本量足够大时,我们对数据分布会有更加准确的认识,从而选择正确的拟合模型。其次是选取模型参数,选取合适的损失函数作为拟合优度,通过损失函数最小化,求出模型参数,进而得到最优模型。通常采用最小二乘法作为回归模型的损失函数。

3.第三步,梯度下降法求参数。在实际操作中,最小二乘法的计算过程可能极为复杂,计算机通常采用梯度下降法求最优模型参数。梯度下降法的基本思想是,通过判断导数正负,使目标点永远向更低处移动,直至达到全局最低点。具体步骤为:先在损失函数曲线上选取初始点w0,若此点导数值为正,则后退一步,若导数值为负,则前进一步,导数为零时,不再变动。

4.第四步,泛化性能判断。我们通过训练集绘制出拟合曲线,但“最佳”拟合曲线在测试集上可能出现水土不服,即拟合效果欠佳。此种情况我们通常称之为过拟合,过拟合会导致模型的泛化性能很差,使得模型只能适用于训练集,而无法用于其他测试集,从而失去预测性能。解决此问题通常有两种方法。一是将训练集上训练好的模型,拿到测试集上进行泛化性能判断,以测试集的预测误差最小化为目标,进一步选取最优模型。二是将系数正则化,通过设置惩罚函数控制系数大小,进而提高模型光滑度,提高泛化性能。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值