Task3-P5-8-Error & Gradient Descent

最新推荐文章于 2024-07-16 21:58:58 发布

Evelyn Young

最新推荐文章于 2024-07-16 21:58:58 发布

阅读量93

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/m0_37572755/article/details/119817619

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

误差来源

无偏估计

$E(\frac{1}{N}\sum x^n)=\frac{1}{N}\sum_n Ex^n=\frac{N}{N}Ex^n=\mu$

$Var(\frac{1}{N}\sum x^n)=\frac{\sigma ^2}{N}$

有偏估计

$S^2=\frac{1}{N}\sum (x^n-\frac{1}{N}\sum x^n)^2$

$ES^2=\frac{N-1}{N}$

过拟合和欠拟合

过拟合

方差大。
训练数据上误差小，但测试数据上误差大。
解决方法：
- 增加数据量：效率高，但往往不现实
- 加入正则化

欠拟合

偏差大。
模型无法较好地拟合训练数据。
解决方法：
- 在设置模型时加入更多特征（变量）；
- 使模型更复杂，如提高变量次数。

模型选择

选择误差最小的模型。

在实际操作中，会有两组数据，一组是训练数据一组是测试数据。通常是：经训练数据训练后的模型，使用测试数据选出最好的模型，再交付使用。

但这样选出的模型在实际使用时有可能并不是最优的，对此有解决方法：

将训练数据分为训练子数据集和测试子数据集，用训练子数据集训练模型，测试子数据集选择模型，由此选择出来的模型在测试数据上的表现就与实际使用时的表现接近了。

N次交叉验证

将训练数据划分为N组，每次使用其中一组作为测试数据，其余作为训练数据。类似的操作会执行N次，训练出N个模型，计算各模型在测试数据上的平均误差，以此来选择模型。

梯度下降

$\theta^*=arg\ min_\theta L(\theta)$

$\theta^{\prime}=[\theta ^1_1, \theta^1_2]^T$

Steps

Step1

$\nabla L(\theta^{\prime})=[\frac{\partial L}{\partial \theta ^1_1},\frac{\partial L}{\partial \theta ^1_2} ]$

计算 $\frac{\partial L}{\partial \theta ^1_1}$ 和 $\frac{\partial L}{\partial \theta ^1_2}$

Step2

$\theta ^2_1 = \theta^1_1 -\eta \frac{\partial L}{\partial \theta ^1_1}$

$\theta ^2_2 = \theta^1_2 -\eta \frac{\partial L}{\partial \theta ^1_2}$

迭代过程以此类推

注意

要小心地选择 $\eta$
- 较小：步长过小，计算所需时间过长；
- 较大：可能达不到最小值，会直接在步长内部跳过最小值处。
解决方法：绘出迭代次数和 $L(\theta)$ 值的变化走势图

自动调整 $\eta$

每次都减小一丢丢

所有参数共用一个学习率，并每次迭代减小学习率一丢丢，如：

$\eta ^t =\frac{\eta}{\sqrt{t+1}}$

每个参数各设置一个学习率，各自调整

如adagrad：

$\theta ^{t+1}=\theta ^t-\frac{\eta ^t}{\sigma ^t}g^t$ 该式子可以简化为：

$\theta ^{t+1}=\theta ^t-\frac{\eta ^t}{\sqrt{\sum_{i=0}^t(g^t)^2}}g^t$

其中 $g^t=\frac{\partial L(\theta ^t)}{\partial \theta ^t}$ ， $\sigma ^t=\sqrt{\frac{1}{t+1}\sum_{i=0}^t (g^t)^2}$ ， $\eta ^t =\frac{\eta}{\sqrt(t+1)}$

迭代过程中将每次的 $g^0$ ~ $g^t$ 用列表存储起来，每次计算 $\sigma ^t$ 时取用
其中 $\sigma ^t$ 用于模拟二次微分

随机梯度下降

随机选取某个 $x^n$ ，计算 $L(\theta)=[\hat(y)^n-(b+\sum_iw_ix_i^n)]^2$

计算 $\theta^i=\theta^{i-1}-\eta\nabla L(\theta^{i-1})$ ，再计算 $L(\theta^i)$ ，以此类推…

即不用过完所有数据再更新参数，而是每使用一个数据就更新一次参数，比之前的方法下降得更快。

特征缩放Feature Scaling

在这里插入图片描述
计算一组数据的 $m_i=\frac{1}{R}\sum_{r=1}^Rx_i^r$ ， $\sigma_i=\sqrt{\frac{1}{R}\sum_{r=1}^R(x^r-m_i)}$ ，则缩放后：

$x_i^r=\frac{x_i^r-m}{\sigma_i}$

类似于正态分布的标准化

多变量泰勒展开式

$h(x,y)=h(x_0,y_0)+\frac{\partial h(x_0,y_0)}{\partial x}(x-x_0)+\frac{\partial h(x_0,y_0)}{\partial y}(y-y_0)$ +二次式三次式

当 $x\to x_0$ ， $y\to t_0$ 时有：

$h(x,y)=h(x_0,y_0)+\frac{\partial h(x_0,y_0)}{\partial x}(x-x_0)+\frac{\partial h(x_0,y_0)}{\partial y}(y-y_0)$

梯度下降的局限性

更新参数后 $L(\theta)$ 值不一定会减小
可能会卡在局部最小，拐点或拐点附近（当梯度趋于0时容易认为已经在最小值附近而停止继续迭代）

Evelyn Young

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task3-P5-8-Error & Gradient Descent

误差来源无偏估计E(1N∑xn)=1N∑nExn=NNExn=μE(\frac{1}{N}\sum x^n)=\frac{1}{N}\sum_n Ex^n=\frac{N}{N}Ex^n=\muE(N1∑xn)=N1∑nExn=NNExn=μVar(1N∑xn)=σ2NVar(\frac{1}{N}\sum x^n)=\frac{\sigma ^2}{N}Var(N1∑xn)=Nσ2有偏估计S2=1N∑(xn−1N∑xn)2S^2=\frac{1}{N}\sum (x^n-\frac{
复制链接

扫一扫