最优化方法
文章平均质量分 64
Paul-LangJun
凡事预则立,不预则废。
展开
-
通俗解释EMA
EMA,全称是指数移动平均,是一种给予近期数据更高权重的平均方法,详细的介绍可以参考:深度学习: 指数加权平均。 深度学习中常见的Adam、RMSProp和Momentum等优化算法内部都使用了EMA,由于使用了EMA这些算法常被称为自适应优化算法,可以随着训练过程的推移,自适应的调整参数的优化方向和步长,可以参考:深度学习中的Momentum算法原理。 假设有一个模型参数 ,EMA在优化器层面是一种局部时间窗口的加权平均,它只能通过对过去一个小的时间窗口内的梯度做加权并更新模型参数 ,如下图原创 2022-06-22 16:54:52 · 13833 阅读 · 0 评论 -
SVM的“三重境界”
SVM——支持向量机,作为机器学习领域最为重量级的学习算法之一,个人总结认为其有“三重境界”:硬,软,柔。硬,即最基本的硬间隔最大化;软,即软间隔最大化;柔,利用核函数实现对非线性样本空间进行分类。 本篇文章将对这三种境界做一些简单的说明。但是,我首先要对SVM的一些基本概念,特别是一些易混的概念进行梳理,理解这些概念才是理解后面三重境界的基础。图 1. SVM示例图 本文以上图为例对SVM进行讲解。蓝色点表示正例,橙色点表示负例;五星表示支持向量;灰色粗线...原创 2020-09-01 12:49:59 · 1568 阅读 · 0 评论 -
理解KKT条件
一、引言 对于无约束最优化问题,其搜索空间是无界的,只要确定了搜索方向和步长因子,便可以在一轮或几轮迭代之后找到最优解或近似最有解。这里举个不太恰当的例子,无约束最优化如同在浩瀚的宇宙中寻找体积最大的星球,你按照一定的策略去找,不用担心越界。 而约束的优化问题就不同了,在寻找最优解的过程中始终要在某一个约束范围空间内进行。还是以上述例子说明,约束最优化如同在浩瀚的宇宙中寻找体...原创 2019-12-02 18:24:24 · 4908 阅读 · 1 评论 -
牛顿法的收敛速度为何比梯度下降法快?
原文链接: 牛顿法 从本质上去看,牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快。如果更通俗地说的话,比如你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部。(牛顿法目光更加长...转载 2019-11-08 14:18:24 · 2687 阅读 · 0 评论