梯度下降法

最新推荐文章于 2023-04-16 12:09:17 发布

legotime

最新推荐文章于 2023-04-16 12:09:17 发布

阅读量1k

点赞数

分类专栏：基础算法文章标签：梯度下降算法

本文链接：https://blog.csdn.net/legotime/article/details/51277141

版权

基础算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

梯度下降法

梯度下降的思想：我们随机选择一个参数组合（）计算代价函数，然后我们寻找下一个能让

代价（损失）函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值（local minimum），因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选

择不同的初始参数组合，可能会找到不同的局部最小值，下面就开始探讨梯度下降法

假设:

参数:

代价（损失）函数:

处理步骤：

$\left\{\begin{matrix} \left\{\begin{matrix} temp_{0}=\theta _{0}-a\frac{\partial }{\partial \theta _{0}}J(\theta _{0},\theta _{1},...\theta _{n})\\ temp_{1}=\theta _{1}-a\frac{\partial }{\partial \theta _{1}}J(\theta _{0},\theta _{1},...\theta _{n}) \\ temp_{0}=\theta _{0}-a\frac{\partial }{\partial \theta _{0}}J(\theta _{0},\theta _{1},...\theta _{n}) \\ temp_{n}=\theta _{n}-a\frac{\partial }{\partial \theta _{n}}J(\theta _{0},\theta _{1},...\theta _{n}) \end{matrix}\right.\\ \left\{\begin{matrix} \theta _{0}=temp_{0}\\ \theta _{1}=temp_{1} \\ ....... \\ \theta _{n}=temp_{n} \end{matrix}\right. \end{matrix}\right.$

$\theta _{j}=\theta _{j}-a\frac{\partial }{\partial \theta _{j}}J(\Theta )=\theta _{j}-\frac{a}{m}\sum_{i=1}^{m}(h_{\theta }(x^{i})-y^{i})x^{i}$

其中：

m是样本数据的个数， $(j = 0,1...n)$ 是参数 $\theta$ 下标

随机梯度下降算法（stochastic gradient）

把全部的样本带入训练的时候，我们把這样的梯度下降称为：批量梯度下降算法（batch gradient descent）。

很容易知道它没迭代一次的复杂度为O（m(n+1)）,为了减少复杂度，我们会选择一部分样本。选择样本一部分数据代入训练的时候，我们称之为随机梯度算法。

随机梯度算法和批量梯度算法优劣

1、如果优化的函数不是只有一个最大（小）值，那么就容易出现局部最优的情况，如下图，有多个极值大（小）点，那么就容易出现局部最优点

2、批量梯度下降可以保证一定有解，但是负责度高，如果数据不多的话，应该使用批量梯度下降。

MATLAB实现梯度下降

%梯度下降法
X=[1 4;2 5;5 1;4 2];
y=[19,26,19,20];
theta = [0 0];
a=0.005;
loss = 1;
iters = 1;
eps = 0.0001;
while iters<100 
    loss = 0;
    for i = 1:length(y)
        h = theta(1)*X(i,1)+theta(2)*X(i,2);
        theta(1)=theta(1)+a*(y(i)-h)*X(i,1);
        theta(2)=theta(2)+a*(y(i)-h)*X(i,2);
        err = theta(1)*X(i,1)+theta(2)*X(i,2)-y(i);
        loss = loss+err*err;
    end
    iters = iters+1;
end
iters
theta