![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
最优化算法
文章平均质量分 90
AiBigData
生而有涯,知而无涯.
不断迭代,实现自我.
展开
-
理解AdamW
理解AdamW我们先弄清楚什么是weight decay其实是在损失函数求导后,放在正则项前面的系数,比如L2正则,我们看一下weight decay的位置我们可以认为λ就是weight decayminwL2(w)=minwf(w)+λ2n∑i=1nwi2L2′(w)=f′(w)+λn∑i=1nwi 我们可以认为\lambda就是weight\ decay\\ \min_wL_2(w)=\min_wf(w)+\frac{\lambda}{2n}\sum_{i=1}^..原创 2021-11-29 15:23:02 · 17582 阅读 · 3 评论 -
L1正则化、L2正则化的多角度分析和概率角度的解释
L1正则化、L2正则化的公式如下minwL1(w)=minwf(w)+λn∑i=1n∣wi∣minwL2(w)=minwf(w)+λ2n∑i=1nwi2\min_wL_1(w)=\min_w f(w)+\frac{\lambda}{n}\sum_{i=1}^n|w_i|\\\min_wL_2(w)=\min_wf(w)+\frac{\lambda}{2n}\sum_{i=1}^nw_i^2wminL1(w)=wminf(w)+nλi=1∑n∣wi∣wminL2(w)=wmin原创 2021-11-26 18:19:56 · 1347 阅读 · 0 评论 -
李航统计学习方法-附录B 牛顿法与拟牛顿法
牛顿法(Newton method)和拟牛顿法(quasi-Newton method)也是求解无约束最优化的常用方法,有收敛速度快的优点。牛顿法是迭代算法,每一步需要求解目标函数的黑塞矩阵的逆矩阵,计算比较复杂。拟牛顿法通过正定矩阵近似黑塞矩阵的逆矩阵或黑塞矩阵,简化了这一计算过程。牛顿法考虑无约束最优化问题minx∈Rnf(x)(B.1)\min_{x\in R^n}f(x)\t...转载 2020-03-03 17:52:08 · 558 阅读 · 0 评论