模型损失函数变化曲线图_线性模型的训练

本文详细介绍了线性模型的训练,包括线性回归的标准方程和梯度下降法。讨论了梯度下降的不同形式,如批量梯度下降、随机梯度下降和小批量梯度下降,以及它们在不同数据规模下的效率和收敛性。此外,还探讨了多项式回归、学习曲线和正则化,如岭回归、Lasso回归和Elastic Net,以应对过拟合和欠拟合问题。最后提到了Logistic Regression在分类问题中的应用。
摘要由CSDN通过智能技术生成
adc0e55a11a745f4945c186e016679c6.png

01

线性回归

线性模型

a2ce8de6ed6da9aee5a8fb1b74ca89e2.png

 损失函数

53d5f345e1df38b559c0f94e906fd206.png

目标:找到θ使损失函数最小

用标准方程式直接计算θ最优解

0a97d9e5173543f7ff48a19a88a883f2.png

标准方程推导过程

9d66d8361a667941035d955d0a3fcbbd.png e4c1bac1c9c89ec6b5f136b80b727ad3.png

随机生成一些线性数据

96c60a00d86d4b917a3f34ab73cbcc7b.png

用标准方程式求最优参数

7ca701713cde635c01411bbde7700b82.png

用LinearRegression求解

4262a11d97a2f753fb5555380ee6f733.png

标准方程计算复杂度,数据越多越慢

线性方程的计算复杂度O(m)

55317f3ca6281daea878ed0f1c4c91d0.png

02

梯度下降

已知损失函数

46cfb4e3ba0f73e1b2b6cb91250dc408.png

Gradient Decent

初始θ是随机的,每一步θ都降低损失函数MSE。
学习率η(learning rate)的选择很重要,太小需要很久才收敛,太大会错过最佳值。损失函数MSE是一个凸函数,保证了我们找到的最小值是全局最小值。

43cfe615d85a487e5ed7bc7007c4fdf8.png

损失函数是一个碗状,但如果特征没有归一化可能是一个细长的碗状。如下图左图所示,特征1和特征2有一样的scale,但是右图是未归一化的特征1和特征2。左边的图Gradient Descent algorithm很快的收敛找到最小值。右图所示,也会找到最小值,但整个路径更长,花费的时间更久。所以使用Gradient Descent 时一定要进行特征归一化。

c7c50fef25f7a7c37808cb3bd76cca9a.png

Batch Gradient Descent

损失函数MSE的梯度向量

24dcacbf56edd0df20adbf346350309a.png

下降最快的负梯度向量

33dc48a63528df18e04a92ef11e4cf0f.png

学习速率取值不同的模型效果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值