梯度下降优化方法的思考

最新推荐文章于 2022-09-09 12:15:00 发布

selous

最新推荐文章于 2022-09-09 12:15:00 发布

阅读量547

点赞数

分类专栏：机器学习文章标签：优化机器学习

本文链接：https://blog.csdn.net/selous/article/details/53523347

版权

机器学习专栏收录该内容

25 篇文章 1 订阅

订阅专栏

写在开头：看了AndroidNG的斯坦福公开课之后，又想重新审视对之前学的似懂非懂的梯度下降方法。写篇博客研究一下其中的数学知识。

1.线性回归

1.线性回归的预测模型： $h_\theta(x)=\theta_0+\theta_1x_1+\dots+\theta_nx_n$
给定m个样本 $(x^{(1)},x^{(2)},\dots,x^{(m)})$ 对应的标记分别为 $(y^{(1)},y^{(2)},\dots,y^{(m)})$ :
我们要做的就是根据这m个样本去估计theta的值，
如何去估计呢？
方法一：直接将m个样本值带入回归模型求 $\theta$ ，可以得到：

y (1) = θ 0 + θ 1 x (1) 1 + \dots + θ n x (1) n y (2) = θ 0 + θ 1 x (2) 1 + \dots + θ n x (2) n \cdot \cdot \cdot y (m) = θ 0 + θ 1 x (m) 1 + \dots + θ n x (m) n

$y^{(1)}=\theta_0+\theta_1x_1^{(1)}+\dots+\theta_nx_n^{(1)} \\ y^{(2)}=\theta_0+\theta_1x_1^{(2)}+\dots+\theta_nx_n^{(2)} \\ \cdot \\ \cdot \\ \cdot \\ y^{(m)}=\theta_0+\theta_1x_1^{(m)}+\dots+\theta_nx_n^{(m)}$

注： $x^{(i)}_j$ 表示的是第i个样本的第j个特征

令 $x_0=1$ 则上式转化成向量表示： $Y=\theta^T*X$ 其中 $Y=(y^{(1)},y^{(2)},\dots,y^{(m)});\theta=(\theta_0,\theta_1,\dots,\theta_n)^T$

X = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x (1) 0 x (1) 1 ⋮ x (1) n x (2) 0 x (2) 1 ⋮ x (2) n \dots \dots ⋮ \dots x (m) 0 x (m) 1 ⋮ x (m) n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

$X=\begin{pmatrix} x_0^{(1)} & x_0^{(2)} & \dots & x_0^{(m)} \\ x_1^{(1)} & x_1^{(2)} & \dots & x_1^{(m)} \\ \vdots&\vdots &\vdots&\vdots \\ x_n^{(1)} & x_n^{(2)} & \dots&x_n^{(m)} \end{pmatrix}$

根据线性代数可知：
而且所有的点都位于拟合曲线上，会出现过拟合问题
方法二：最优化方法，构造损失函数，求得能使损失函数最小的最优 $\theta$ 值

机器学习中常用的损失函数:
(1) $0-1$ loss function

$f (θ) = {1, 0, y \neq h θ (x) y = h θ (x) J (θ) = \sum θ = θ 0 θ k f (θ)$ $f(\theta)= \begin{cases} 1,& y \neq h_\theta(x)\\ 0,& y=h_\theta(x) \end{cases} \\ J(\theta)=\sum_{\theta=\theta_0}^{\theta_k}f(\theta)$
(2)quadratic loss function
$J (θ) = \sum i = 1 m (y (i) - h θ (x (i))) 2$ $J(\theta)=\sum_{i=1}^m(y^{(i)}-h_\theta(x^{(i)}))^2$
(3)absolute loss function
$J (θ) = \sum i = 1 m ∣ ∣ (y (i) - h θ (x (i))) ∣ ∣$ $J(\theta)=\sum_{i=1}^m\left\lvert(y^{(i)}-h_\theta(x^{(i)}))\right\lvert$
(4)logarithmic loss function
$J (θ) = - \sum i = 1 m l o g P (y (i) ∣ x (i))$ $J(\theta)=-\sum_{i=1}^{m}logP(y^{(i)} \lvert x^{(i)})$

在线性规划中最常用的是平方损失函数 $J(\theta)=\sum_{i=1}^m(y^{(i)}-h_\theta(x^{(i)}))^2$ 。
我们实际上要最优化 $\theta$ 的目标也就等价于最小化损失函数 $J(\theta)$ ,这里的 $J(\theta)$ 就是关于 $\theta$ 的函数，其中这个式子中 $x$ 和 $y$ 都是样本的值带入，然后就成了常数，如何使得损失函数最小化，就是接下来需要考虑的问题，这种问题的学名叫做无约束优化问题。
下面介绍几种常用的优化方法：
1.梯度下降
2.牛顿法

2.梯度下降(Gradient Descent)

考虑无约束数学规划问题：

m i n J (θ), θ \in R n

$minJ(\theta),\theta \in R^n$
步骤：
(1)选取初始点

θ(0) $\theta^{(0)}$ ,指定计算精度

ϵ>0 $\epsilon>0$ 。令

k=0 $k=0$
(2)计算迭代方向向量

dk=−▿J(θ(k)) $d_k=- \triangledown J(\theta^{(k)})$ (负梯度方向)
(3)如果

||▿J(θ(k))||≤ϵ $||\triangledown J(\theta^{(k)})||\leq \epsilon$ (偏导为0，同样也可以判断函数值的变化)，停止迭代，

θ∗=θ(k) $\theta^*=\theta^{(k)}$ ,算法结束。
(4)否则，求最优步长

λk $\lambda_k$ ,也就是

λk=argminλJ(θ(k)+λdk) $\lambda_k=arg min_\lambda J(\theta^{(k)}+\lambda d_k)$ (其中

θ(k),dk $\theta^{(k)},d_k$ 都是已知，所以很容易求

λk $\lambda_k$ )，令

θ(k+1)=θ(k)+λkdk,k=k+1 $\theta^{(k+1)}=\theta^{(k)}+\lambda_k d_k,k=k+1$ 转步骤2。

编程的大致伪代码即为：
首先程序给予 $\theta^{(0)}$ ，
repeat{
$\theta^{(k+1)}=\theta^{(k)}-\lambda_k*\frac{d}{d\theta}J(\theta^{(k)})$ //梯度方法
}
注意：
此处的 $\theta$ 为向量也就是，上式可以转化为：
repeat{
$\theta^{(k+1)}_0=\theta^{(k)}_0-\lambda_k\frac{d}{d\theta_0}J(\theta^{(k)})$
$\theta^{(k+1)}_1=\theta^{(k)}_1-\lambda_k\frac{d}{d\theta_1}J(\theta^{(k)})$
$\vdots$
$\theta^{(k+1)}_n=\theta^{(k)}_n-\lambda_k\frac{d}{d\theta_n}J(\theta^{(k)})$
}
直到 $J(\theta)$ 的值不在变化时，停止迭代。
理论：沿着逆梯度方向函数值在减小，执行梯度下降需要满足原函数是凸函数，关于 $J(\theta)$ 是否满足，因为是二次函数，所以明显是满足的

缺点：首先需要说明的一点是 $d_{k+1}\perp d_{k}$ ，证明方法简单，步骤(4)中求最优 $\lambda_k$ 时，求导等于0，即可得到上述结论。由于这个特点的存在，会导致在接近最优点的时候，每次迭代的步长会特别小，导致迭代次数增加。所有就有了牛顿法。

牛顿法

逻辑回归简述

MATLAB编程实现

关于最优化的思考

无约束优化

黄金搜索法

二次插值法

Nelder-Mead算法

最速下降法

牛顿法

模拟退火法

遗传算法

约束优化

拉格朗日乘子法

惩罚函数法

写在最后：这篇博客还没写完，编辑公式太浪费时间了。下面所要写的也都是优化问题的方法，所以一次没写完，要等着之后慢慢补充。关于优化问题，读者可以最好买几本数学的教材读一读。机器学习中充斥的最多的也就是优化问题。可以先随便看一本国内的优化问题的教材，然后攻读Stephen Boyd的Convex optimization(凸优化)。
——2016.12.8