标量和向量的导数

Tiny_G

已于 2023-08-21 20:50:11 修改

阅读量176

点赞数

分类专栏：数学基础文章标签：机器学习人工智能

于 2023-08-21 20:49:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45801179/article/details/132416438

版权

数学基础专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.标量导数

y	a(常数)	${{\rm{x}}^n}$	exp(x)	log(x)	sin(x)
$\over {dx}}$	0	${{\rm{{n}}{x}}^n}$	exp(x)	$\over x}$	$\cos x$

2.向量导数

y	a	x	Ax	${{{x}}^T}$ A	au	Au	u+v
${{\partial x}\over{{\partial y}}}$	0	I	Ax	${{x}}^T$	$a{{{{\partial u}} \over {{\partial y}}}}$	$A{{{{\partial u}} \over {{\partial y}}}}$	${{\partial u} \over {\partial x}} + {{\partial v} \over {\partial x}}$

3.线性回归

3.1平方损失

假设y是真实值， $\hat{y}$ 是预估值，平方损失： $\ell(y, \hat{y})=\frac{1}{2}(y-\hat{y})^2$

3.2训练数据

假设有n个样本，记 $X = [x_1,x_2,...,x_n]^T$ , $Y =[y_1,y_2,...,y_3]^T$

3.3参数学习

训练损失： $\ell(X,y,w,b)=\frac{1}{2n}\sum\limits_{i = 1}^n(y_{i}-<x_{i},w>-b) ^2 =\frac{1}{2n}{||y-Xw-b||}^2$

最小化损失来学习参数w*,b*:

$\mathbf{w}^*, \mathbf{b}^*=\arg \min _{\mathbf{w}, b} \ell(\mathbf{X}, \mathbf{y}, \mathbf{w}, b)$

3.4显示解

将偏差加入权重
$\ell(\mathbf{X},y,w) = \frac{1}{2n}||y-w\mathbf{X}||^2 = {{\partial {\ell(\mathbf{X},y,w)} \over \partial{\mathbf{w}} }= \frac{1}{n}(y-\mathbf{X}w)^TX}$

由于是凸函数，所以最优解满足在导数等于0的点，即：

${\partial {\ell (\mathbf{X},y,b)} \over \partial \mathbf{w}}=0$

$\Rightarrow {\frac{1}{n} (y-\mathbf{X}{w})^T X}=0$

$\Rightarrow w^* = {(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^{T}y}$

3.5 梯度下降

挑选一个初始值 $w_0$ ,重复迭代参数 $t = 1, 2, 3, ...$ ,使得w取得一个最小值：
$W_t = W_{t-1} - \eta{\partial{\ell}\over{\partial{W_{t-1}}}}$

沿梯度方向将增大损失函数值，因此是 ${\partial{\ell}\over{\partial{W_{t-1}}}}$
$\eta$ :学习率，超参数，控制梯度下降步长

那么对于超参数——学习率，如何恰当的选择学习率呢？

3.5.1 小批量梯度下降

在实际训练过程中，很少直接使用梯度下降，而是使用梯度下降的变体，例如：小批量随机下降，因为每一次下降，损失函数都是对整个样本求导后的平均损失。因此，求一次梯度，就需要重新算计算一次整个样本集，而在一个深度神经网络模型可能需要数分钟甚至数个小时，因此，一次梯度的计算花销是巨大的。

那么我们能不能随机采样b个样本 $i_1,i_2,i_3,...$ 来求近似损失呢？

答案是能的，这就是小批量随机梯度下降：
$\frac{1}{b}{\sum\limits_{i\in{I_b}}\ell({\mathbf{X}}_i,{\mathbf{y}}_i,\mathbf{w})}$

其中，

b是批量大小，是相对于学习率，另一个重要的超参数

那么如何选择批量的大小呢？

不能太小：每次计算量太小，不适合GPU并行计算
不能太大：太大内存消耗增加或者浪费计算（当所有样本都相同时）

4.总结

梯度下降是通过不断沿着梯度的相反方向接近损失函数最小的点，从而不断的更新参数来求解
小批量随机梯度下降算法是深度学习默认的求解算法
两个重要的超参数是学习率 $\eta$ 和批量大小b

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
标量和向量的导数

梯度下降是通过不断沿着梯度的相反方向接近损失函数最小的点，从而不断的更新参数来求解小批量随机梯度下降算法是深度学习默认的求解算法两个重要的超参数是学习率η\etaη和批量大小b。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。