最优化
zhaosarsa
C'est la vie
Carpe diem
展开
-
【数学基础】拉格朗日乘子法
概述在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法。在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。我们这里提到的最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最小值(因为最小值与最大值可以很容易转化,即最大值问题可以转化成最小值问题)。提到KKT条件一般会附...原创 2018-08-04 14:47:06 · 13853 阅读 · 0 评论 -
【数学基础】L2范数之解救矩阵病态
在之前的两篇文章岭回归以及L1正则化与L2正则化详解中都有提到L2范数。但对于L2范数在优化计算角度上都跳过了。故在这里新开一篇详细介绍一下,为什么L2范数可以解救病态矩阵,以及优化计算。病态系统现在有线性系统: , 解方程很容易得到解为: 。如果在样本采集时存在一个微小的误差,比如,将 A 矩阵的系数 400 改变成 401:则得到一个截然不同的解: 。当解集 x 对...原创 2018-08-14 00:06:07 · 9150 阅读 · 1 评论 -
【机器学习】岭回归(L2正则在干嘛!)
在之前我们有介绍过贝叶斯线性回归,贝叶斯线性回归利用了最大后验估计(MAP)加上权重的高斯分布先验推导出带有L2正则项的线性回归。其实这就是岭回归,即 岭回归=MAP+高斯先验。推导就参见贝叶斯线性回归了,其实两者就是一模一样的东西,不过贝叶斯线性回归更侧重于推导这个过程,因为用了MAP方法,而提到岭回归我们就会更去研究强调其L2正则项的一些特性与作用。直接给出岭回归的推导结果...原创 2018-08-13 20:49:52 · 4721 阅读 · 2 评论 -
【机器学习】最大熵模型(Maximum Entropy Model)
最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情...原创 2018-08-08 19:52:59 · 8814 阅读 · 0 评论 -
【机器学习】L1正则化与L2正则化详解及解决过拟合的方法
在详细介绍L1与L2之前,先讲讲正则化的应用场景。正则化方法:防止过拟合,提高泛化能力所谓过拟合(over-fitting)其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。造成过拟合的本质原因是模型学习的太过精密,导致连训练集中的样本噪声也一丝不差的训练进入了模型。所谓欠拟合(under-fitting),与过拟...原创 2018-08-13 17:29:56 · 14236 阅读 · 3 评论 -
【机器学习】次梯度(subgradient)方法
次梯度方法(subgradient method)是传统的梯度下降方法的拓展,用来处理不可导的凸函数。它的优势是比传统方法处理问题范围大,劣势是算法收敛速度慢。但是,由于它对不可导函数有很好的处理方法,所以学习它还是很有必要的。次导数设f:I→R是一个实变量凸函数,定义在实数轴上的开区间内。这种函数不一定是处处可导的,例如最经典的例子就是,在处不可导。但是,从下图的可以看出,对于定义域...转载 2018-08-15 16:08:01 · 56859 阅读 · 14 评论 -
【机器学习】Lasso回归(L1正则,MAP+拉普拉斯先验)
前言目前这个方法还没有一个正规的中文名,如果从lasso这个单词讲的话,叫套索。那么套索是啥呢,就是套马脖子的东西,见下图: 就是拿这个东西把动物脖子套住,不要它随便跑。lasso 回归就是这个意思,就是让回归系数不要太大,以免造成过度拟合(overfitting)。所以呢,lasso regression是个啥呢,就是一个回归,并且回归系数不要太大。具体的实现方式是加了一个L1正...原创 2018-08-14 20:37:20 · 5846 阅读 · 0 评论 -
【机器学习】线性回归之概率解释及局部加权线性回归
Probabilistic interpretation我们应该想这样一个问题:当我们讨论回归问题时,我们为什么要最小化平方损失函数?在CS229的课程中,吴恩达教授给我们做了详细的概率解释。现总结如下: 对单个样本来说: 其中 为预测误差,我们假定样本的误差属于独立同分布。 根据中心极限定理:多个随机变量的和符合正态分布;因为误差的随机性, 符合均值为0,方差为 的正态分布...原创 2018-08-06 20:21:39 · 802 阅读 · 0 评论 -
【机器学习】线性回归之Normal Equation(矩阵求导与线性代数视角)
Normal Equation之前我们用梯度下降来求解线性回归问题的最优参数,除此之外我们还可以用正规方程法(Normal Equation)来求解其最优参数。Normal Equation方法的推导有两种方式矩阵求导(matrix derivative)其中其中X的行表示样本,列表示特征:令导数等于零:因此:关于矩阵求导的公式可以参见:常用的向量矩...转载 2018-08-06 14:59:33 · 13732 阅读 · 11 评论 -
【机器学习】线性回归之梯度下降、多元线性回归概述
线性回归是一种监督学习方法. 对每个样本来说: Hypothesis:即:其中, 为预测值, 为样本的第i个特征,且; 为该特征下的权重,bias偏差。线性回归就是要在已有的样本特征和标签下学习特征权重,从而在待测样本中应用学习好的特征权重,得到待测样本的标签。 定义损失函数:我们的目的是找到最优的 来最小化 , 使用梯度下降方法:对每一个样本来说...原创 2018-08-06 14:18:03 · 986 阅读 · 0 评论 -
【数学基础】拉格朗日对偶
继介绍完拉格朗日乘子法与KKT条件之后,再来讲讲拉格朗日对偶变换。为接下来彻底搞清楚SVM做好铺垫。在优化理论中,目标函数会有多种形式:如果目标函数和约束条件都为变量的线性函数, 称该问题为线性规划; 如果目标函数为二次函数, 约束条件为线性函数, 称该最优化问题为二次规划; 如果目标函数或者约束条件均为非线性函数, 称该最优化问题为非线性规划。每个线性规划问题都有一个与之对应的对偶问题,...原创 2018-08-04 18:58:01 · 11778 阅读 · 3 评论 -
【数学基础】KKT条件
继前面讲的拉格朗日乘子法。拉格朗日乘子法主要用于求解等式约束的问题,当约束加上不等式之后,情况变得更加复杂,首先来看一个简单的情况,给定如下不等式约束问题:对应的 Lagrangian 与图形分别如下所示:上面这段话可能描述的不够清楚。我总结一下。上图左表达的是,当我们要找的局部最优解(或者全局最优解)刚好就在约束条件的可行区域内部(这个时候最优解对应的是g(x)<...原创 2018-08-04 17:06:50 · 39056 阅读 · 8 评论 -
【机器学习】坐标下降法(Coordinate descent)
coordinate-wise minimization(坐标朝向最小)coordinate-wise minimization介绍的是坐标下降法的理论依据。问题的描述:给定一个可微的凸函数,如果在某一点,使得在每一个坐标轴上都是最小值,那么是不是一个全局的最小值。形式化的描述为:是不是对于所有的都有这里的代表第个标准基向量。答案为成立。这是因为:但是问题来...转载 2018-08-16 13:18:38 · 18452 阅读 · 3 评论