最优化-梯度下降法

最新推荐文章于 2021-11-21 23:28:13 发布

烫头啊

最新推荐文章于 2021-11-21 23:28:13 发布

阅读量780

点赞数

分类专栏：最优化文章标签：最优化机器学习梯度下降法-梯度下降法-牛顿法-高斯牛顿法-levenberg-marquardt算法

本文链接：https://blog.csdn.net/qq_33267669/article/details/78572125

版权

最优化专栏收录该内容

0 篇文章 0 订阅

订阅专栏

最优化概述

机器学习近年来已经获得迅速发展,而机器学习的本质就是对问题进行抽象建模,使得一个学习问题变为一个可求解的优化问题,归纳起来就是把一个学习问题转化为优化问题.我们需要寻找输入特征与标签之间的映射关系,有一条重要的原则就是使得寻找到的映射结果与原始标签之间的误差最小.
最优化算法从最基本的梯度下降法到一些启发式算法,如遗传算法(GA),差分演化算法(DE),粒子群算法(PSO)和人工蜂群算法(ABC).

梯度下降法

梯度下降法又称为最速下降法,是一种最优化求解算法,可被应用到线性回归算法中,当然还有其他机器学习算法,如逻辑斯蒂回归和神经网络.

拟合函数

以线性回归作为算法实例,拟合函数为:

H (x) = θ 0 + θ 1 X 1 + θ 2 X 2 + . . . + θ n X n

$H(x) = \theta_0 + {\theta_1}X_1 + {\theta_2}X_2 + ...+ {\theta_n}X_n$
其中,

θ0,θ1,θn $\theta_0 , \theta_1, \theta_n$ 为参数,

X1,X2,Xn $X_1, X_2, X_n$ 为特征.

代价函数

为求得模型最优化解,需要找到合适的参数使得拟合函数能更好的适合模型,然后使用梯度下降法最小化代价函数 $J(\theta)$ ,这里采用平方差作为代价函数.

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})^2$
m表示训练集的数目,

x(i) $x^{(i)}$ 表示第i个训练样本的所有特征,

hθ(x(i)) $h_\theta(x^{(i)})$ 表示依据拟合函数第i个训练样本的拟合值,

y(i) $y^{(i)}$ 为第i个样本的实际结果值.
代价函数的用途:对假设的函数进行评价,代价函数(误差)越小的拟合函数说明拟合训练数据拟合的越好.
举例说明:
给定训练数据集: (1,1),(2,2),(3,3),共有3个训练样本,每个训练样本包含一个特征值及对应的结果值,只有一个特征,所以拟合函数为

h(x)=θ0+θ1X $h(x) = \theta_0 + \theta_1 X$ .
如果预测

θ0=0,θ1=0.5 $\theta_0 = 0, \theta_1 = 0.5$ ,则拟合函数

h(x)=0.5x $h(x) = 0.5x$ ,代价函数为

J(θ)=16[(h(1)−1)2+(h(2)−2)2+(h(3)−3)2]=0.58 $J(\theta) = \frac{1}{6}[(h(1) - 1)^2 + (h(2) - 2)^2 + (h(3) - 3)^2] = 0.58$ .
如果预测

θ0=0 $\theta_0 = 0$ ,

θ1=1 $\theta_1 = 1$ ,则拟合函数

h(x)=x $h(x) = x$ ,代价函数为

J(θ)=16[(h(1)−1)2+(h(2)−2)2+(h(3)−3)2]=0 $J(\theta) = \frac{1}{6}[(h(1) - 1)^2 + (h(2) - 2)^2 + (h(3) - 3)^2] = 0$ .
因此第二种预测的代价函数较小,拟合程度较高.
对于大量训练数据,我们可以采用梯度下降法求得使代价函数最小的最优解.

基本概念

梯度下降法的理论基础是梯度,梯度与方向导数的关系为:梯度的方向与取得最大方向导数值的方向一致,梯度的模就是函数在该点的方向导数的最大值.
梯度本意是一个向量,当某一函数在某点处沿着该方向的方向导数取得该点处的最大值,即函数在该点处沿该方向变化最快,变化率最大,那么这个方向就是梯度的方向,变化率为梯度的模.
想象我们站在一座山上,要去往山下,现在要决定那个方向是下降最快的方向,这个方向就是梯度的方向.

求解过程

以线性回归为例应用梯度下降:
首先我们给 $\theta$ 一个初值,然后让 $J(\theta)$ 向着变化最大的方向更新 $\theta$ 的取值,如此迭代.

θ j : = θ j - α \partial \partial θ j J (θ)

$\theta_j := \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta)$

α $\alpha$ 为学习速率,即每一步的大小,它控制

θ $\theta$ 每次向

J(θ) $J(\theta)$ 变小的方向迭代时的变化幅度.取较小的值意味着迭代速度慢,反之迭代速度快,但反而有可能使得走到更高的地方.

∂∂θjJ(θ) $\frac{\partial}{\partial\theta_j}J(\theta)$ 为

J(θ) $J(\theta)$ 对

θ $\theta$ 的偏导,表示

J(θ) $J(\theta)$ 变化最快的方向.

hθ(x) $h_\theta(x)$ 为线性回归的拟合函数.

\partial \partial θ j J (θ) = \partial \partial θ j 1 2 (h θ (x) - y) 2 = 2 \cdot 1 2 (h θ (x) - y) \cdot \partial \partial θ j (h θ (x) - y) = (h θ (x) - y) \cdot \partial \partial θ j (\sum i = 0 n θ i x i - y) = (h θ (x) - y) \cdot x j

$\begin{aligned} \frac{\partial}{\partial\theta_j}J(\theta) &= \frac{\partial}{\partial\theta_j}\frac{1}{2}(h_\theta(x) - y)^2\\ &=2\cdot\frac{1}{2}(h_\theta(x) - y)\cdot\frac{\partial}{\partial\theta_j}(h_\theta(x) - y)\\ &=(h_\theta(x) - y)\cdot\frac{\partial}{\partial\theta_j}(\sum_{i=0}^{n}\theta_ix_i - y)\\ &=(h_\theta(x) - y)\cdot x_j \end{aligned}$