Slides:百度云 提取码: gs3n
优化
优化的本质目标就是
ω ∗ = a r g m i n ω L ( ω ) \omega^*=argmin_{\omega}L(\omega) ω∗=argminωL(ω)
其中的 L ( ω ) L(\omega) L(ω)是Lost函数,即,找到能够使得 L ( ω ) L(\omega) L(ω)最小的 ω \omega ω。
优化的方式
随机搜索(愚蠢的决定)
梯度计算
对于一维函数,通过微分得到梯度
d f ( x ) d x = lim h → 0 f ( x + h ) − f ( x ) h {df(x)\over dx}=\lim_{h\rightarrow 0}{f(x+h)-f(x)\over h} dxdf(x)=h→0limhf(x+h)−f(x)
对于多维函数,梯度则是一个由各维度的偏微分组成的向量。
沿着梯度的反方向前进就能得到最速下降的方向。
数值渐变
对于每一个维度,取一个较小的 h h h;然后模拟微分的过程来计算
比较慢,主要用于参照和debug
分析渐变
用Loss函数的微分公式直接计算
L = 1 N ∑ i = 1 N L i + ∑ k W k