![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Optimization
大眼呆萌君
Python小白、算法小虾的三月突击之旅,Aza Aza Fighting!!!
求深度、求知识的连接与碰撞,不求写作的完整性。谢众多同行详尽的博文与回答,叹学海无涯。
展开
-
调超参(lr,regularization parameter)经验整理
Learning rate最优值从1e-4到1e-1的数量级都碰到过,原则大概是越简单的模型的learning rate可以越大一些。[https://blog.csdn.net/weixin_44070747/article/details/94339089]其它:增大batchsize来保持学习率的策略[抛弃Learning Rate Decay吧 https://www.sohu....原创 2020-04-09 04:46:50 · 1444 阅读 · 0 评论 -
group sparsity
regularization for categorical variables原创 2020-03-01 00:19:36 · 849 阅读 · 0 评论 -
调参之random initialization
Big picture on why we need randomness in stochastic algorithmsrandomness during initialization: as the structure of the search space is unknownrandomness during the progression of the search: avoid...原创 2020-02-05 02:03:43 · 214 阅读 · 0 评论 -
调参之learning rate
The learning rate is perhaps the most important hyperparameter. If you have time to tune only one hyperparameter, tune the learning rate.\hspace{20em} – Page 429, Deep Learning, 2016a l...原创 2020-02-05 01:23:12 · 1207 阅读 · 0 评论 -
机器学习中的凸和非凸优化问题
题目(145):机器学习中的优化问题,哪些是凸优化问题,哪些是非凸优化问题?请各举一个例子。 - 凸优化定义 - 凸优化问题 - 非凸优化问题 - 凸优化定义:公式、geometric insight - 凸优化问题:逻辑回归;通过Hessian matrix的半正定性质判定;局部最优等价于全部最优 - 非凸优化问题:PCA;PCA求解方式凸优化问题逻辑回归Li(θ)=lo...原创 2019-12-28 19:08:07 · 2406 阅读 · 0 评论 -
L1正则项与稀疏性
题目(164):L1正则化使得模型参数具有稀疏性的原理是什么?回答角度:几何角度,即解空间形状微积分角度,对带L1限制的目标函数求导贝叶斯先验解空间形状正则条件和限制条件的等价性L1范数与L2范数的几何形状如果原问题目标函数的最优解不在解空间内,那么约束条件下的最优解一定是在解空间的边界上。[复习KKT, complementary slackness]...原创 2019-12-24 05:36:49 · 538 阅读 · 0 评论 -
梯度下降、随机梯度下降法、及其改进
GD, SGD, batch GD改进算法:momentum, ADAM, etc原创 2019-12-18 17:32:14 · 703 阅读 · 0 评论 -
无约束优化问题的求解
一阶、二阶算法和Taylor expansion之间的关系原创 2019-12-17 17:47:02 · 473 阅读 · 0 评论 -
验证梯度的正确性
题目(152):如何验证求目标函数梯度功能的正确性?考点:微积分、Taylor expansion近似(微积分)根据partial derivative的定义,∂L(θ)∂θi=L(θ1,⋯ ,θi+h,⋯ ,θp)−L(θ1,⋯ ,θi−h,⋯ ,θp)2h\frac{\partial L(\bm \theta)}{\partial \theta_i} = \frac{L(\theta_...原创 2019-12-16 17:25:20 · 391 阅读 · 0 评论 -
损失函数
题目(142):有监督学习涉及的损失函数有哪些?请列举并简述它们的特点。解释角度不同Label类型对应的损失函数:categorical (binary/multi-class classification), ordinal (ordinal classification), continuous (regression)classification: 0-1 loss and its ...原创 2019-12-16 01:29:20 · 390 阅读 · 0 评论 -
Line Search Methods
重点Armijo condition的直观理解Armijo conditionstep length问题:过大或过小Backtracking line search 1. Initialization: alpha (=1), tau (decay rate) 2. while f(x^t + alpha p^t) ">" f(x^t) alpha = tau*a...原创 2019-12-14 05:29:33 · 352 阅读 · 0 评论