![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
优化
-倾城之恋-
这个作者很懒,什么都没留下…
展开
-
从线性方程组求解到最小二乘问题
关键词:线性方程组,矩阵,秩,矩阵逆,伪逆,左逆,右逆,线性方程组求解:Ax=yAx=yAx=y已知A∈Rm×nA\in\R^{m\times n}A∈Rm×n和y∈Rmy\in\R^my∈Rm,求x∈Rnx\in\R^nx∈Rn。mmm为方程个数(行数),nnn为未知数个数(列数),根据mmm,nnn的大小关系,可以分为3类:(1)m>nm>nm>n:超定方程组,(...原创 2020-05-02 23:43:59 · 1707 阅读 · 0 评论 -
约束优化&拉格朗日乘子法&拉格朗日对偶解法的关系
本文梳理一些约束优化里问题常见的一些拉格朗日乘子法与拉格朗日对偶的关系。经常看到一些错误说法:就是拉格朗日对偶解法就是针对不等式约束优化问题的拉格朗日乘子法,实际上并不是。1、约束优化问题约束优化问题,分为等式约束优化问题和不等式约束优化问题。经常利用拉格朗日乘子法求解。2、等式约束优化问题等式约束优化问题相对简单,高等数学中一般都有拉格朗日乘子法求极值的介绍,这里不做过多介绍。f(x)...原创 2020-04-28 11:51:22 · 854 阅读 · 0 评论 -
梯度提升(Gradient Boosting )
1、梯度提升梯度提升方法的特点在于损失函数比较复杂,难以优化。一般的提升方法的损失函数比较简单。比如Adaboost中,提升模型是多个弱基学习器的加权和,当基于指数损失函数和前向分步算法优化模型时,最终推导结果相当于:每一步仅需要学习当前基学习器使得所有样本的加权损失最小。或者在一般提升回归树中,提升模型是多个弱基学习器的和,当基于平方误差损失函数和前向分步算法优化模型时,最终推导结果相当...原创 2020-02-05 15:00:10 · 754 阅读 · 0 评论 -
梯度下降、牛顿法与拟牛顿法
1、梯度下降法梯度下降,从某一初始点出发,找到最陡或者梯度最大的方向,以一定步长沿着最陡的方向往低处走,知道遇到极小值。属于一阶优化方法。2、牛顿法牛顿法,从某一初始点出发,用一个二次的曲线或者曲面局部拟合目标函数,然后通过求解二次曲线或曲面的梯度,一步到达曲线或者曲面的最小值,然后继续用新的二次曲线或曲面局部拟合。如果目标函数是近似二次的,则机会一步到达极小值,因此比一阶方法快。缺点是在...原创 2020-01-22 09:34:25 · 442 阅读 · 0 评论 -
集成学习
集成学习方法分为两大类:1)基于boost的方法:基本原理就是利用一系列弱学习器组成一个强学习器。这些弱学习按顺序依次训练得到。这个方法是首先给每个样本赋一个权值,这个权值被利用到损失函数中。然后训练第一个弱学习器,完成训练之后,根据这个弱学习器在训练集的上的表现,更新样本权值,具体来说就是预测错误的样本被赋予更大的权值,预测正确的值被赋予更小的权值,然后继续训练第二个弱学习器。这样训练N个...原创 2019-08-04 05:21:46 · 169 阅读 · 0 评论 -
为什么说梯度方向是函数值上升(的速率)最快的方向
梯度原创 2019-12-11 15:37:35 · 1747 阅读 · 0 评论 -
信息熵
信息熵信息熵是统计学习中常见概念,用来衡量一个随机变量XXX的不确定性,不确定性和概率分布p(X)p(X)p(X)有关,因此有下式:H(X)H(X)H(X)或者H(p)=−∑xp(x)log(p(x))=Exlog(1p(x))H(p)=-\sum\limits_{x} p(x)log(p(x))=E_{x}log(\frac{1}{p(x)})H(p)=−x∑p(x)log(p(x))=E...原创 2019-12-09 11:22:33 · 220 阅读 · 0 评论 -
EM算法
在用最大似然原则求解一些图模型参数时,经常会遇到图模型含有隐变量的情况,导致很难简单实用极大似然估计。这类问题一般求助于基于迭代的EM算法。一般分为两步。第一步求期望,第二步最大化。下面我们导出EM算法。已知观察数据Y={y1,...yN}Y=\{y_1,...y_N\}Y={y1,...yN},和隐变量为Z={z1,...,zN}Z=\{z_1,...,z_N\}Z={z1,.....原创 2019-07-25 06:16:27 · 198 阅读 · 0 评论 -
支持向量机思路
通过最大间隔原则导出SVM基本型:minw,b12∣∣w∣∣2\min\limits_{w,b}\frac{1}{2}||w||^2w,bmin21∣∣w∣∣2s.t. yi(wTxi+b)≥1,i=1,...,ms.t. ~~y_i(w^Tx_i+b)\geq1,i=1,...,ms.t. yi(wTxi+b)≥1,i=1,...,m...原创 2019-07-19 07:11:27 · 277 阅读 · 0 评论 -
神经网络之梯度下降
神经网络是一个神奇的黑盒子,其求解方法主要是各种梯度下降迭代算法。梯度下降:,梯度为基于全体样本的平均梯度,学习率为静态学习率。随机梯度下降:梯度为基于单个样本的梯度,学习率为静态学习率。batch梯度下降:梯度为基于多个样本的平均梯度,更准确点。速度介于梯度下降和batch梯度下降之间。学习率为静态学习率。momentum:梯度为当前梯度和上次参数更新量的加权和。主要成分为上次参数更新量...原创 2019-09-01 04:06:02 · 396 阅读 · 0 评论 -
拉格朗日对偶性
原始问题:minxf(x)\min\limits_xf(x)xminf(x)s.t. g(x)≤0s.t.~g(x)\leq0s.t. g(x)≤0。原始问题转化为对偶问题求解的整体思路就是构造原问题最优值的下界(即拉格朗日对偶函数)。然后考虑如何确定原问题最优值的最大下界(最大化拉格朗日对偶函数)即可。构造拉格朗日函数:L(x,λ)=f(x)+λg(x),&nb...原创 2019-08-10 07:29:55 · 298 阅读 · 0 评论 -
有约束优化之拉格朗日乘子法求解
有约束优化之拉格朗日乘子法求解本篇文章将详解带有约束条件的最优化问题,约束条件分为等式约束与不等式约束,对于等式约束的优化问题,可以直接应用拉格朗日乘子法去求取最优值;对于含有不等式约束的优化问题,可以转化为在满足 KKT 约束条件下应用拉格朗日乘子法求解。拉格朗日求得的并不一定是最优解,只有在凸优化的情况下,才能保证得到的是最优解,所以本文称拉格朗日乘子法得到的为可行解,其实就是局部极小值。...原创 2019-08-09 08:13:17 · 1118 阅读 · 0 评论