梯度下降算法很久之前就看过了,近来想对这些知识做一个整体的梳理,一来是为了便于对知识的回顾和总结,二来也希望可以帮助到大家更好地掌握到这些知识。
下图是一个算法最基本的流程图,接下来会讲解为什么要使用梯度下降算法,梯度下降算法中步长的理解、分类问题和回归问题的区别、sigmoid和softmax的比较。如果文章有错误的地方,欢迎大家指出。
文章目录
1、梯度下降算法
1.1、梯度下降算法
我们先来介绍最基本的训练过程
现在我们假设只有一个输入样本和标签,经过了一个简单的变换,即求一个单变量线性回归
单变量线性回归表示方法:
单变量的代价函数J表示(均方误差):
我们现在用数学公式总结一下我们的问题,即
我们的目的是找到合适的θ0,θ1使得代价函数最小,这时候我们列出所有的θ0,θ1 对应的J值,得到一个三维空间图。
或者得到这种二维空间图