Opt
A4学士
这个作者很懒,什么都没留下…
展开
-
矩阵求导
前言 本文为维基百科上矩阵微积分部分的翻译内容。本文为原文的翻译与个人总结,非一一对照翻译。由于水平不足理解不够处,敬请原谅与指出。原文地址https://en.wikipedia.org/wiki/Matrix_calculus。原文为矩阵微积分,本文题为矩阵求导,原因是原文主要介绍的是矩阵微分的内容。1 简介矩阵的微积分本质上是多元变量的微积分的问题,只是应用在矩阵空间上而已。在讨论矩阵微转载 2017-11-28 19:38:46 · 612 阅读 · 0 评论 -
method_Nesterov's Accelerated Gradient Descent
一般的梯度下降算法的收敛速率为 o(1/t).1.简介:加速梯度算法(AGD)是梯度算法(GD)的一个改进的版本。Nesterov 在1983年首次提出。人们已经证明AGD算法是所有基于梯度算法(或者说一阶)算法中最好的方法。然而原始的AGD算法仅能处理光滑的凸优化问题。最新的进展是,将AGD扩展到了更广泛类型的凸优化问题: minxf(x)+g(x) 其中f(x)是闭凸函数。同样可以获得相似转载 2017-11-27 19:48:20 · 4614 阅读 · 0 评论 -
收敛速率
最优化理论中,评价一个算法的收敛速度有两个衡量尺度,Q-收敛与 R-收敛,我们一般用到的是 Q-收敛,它包括:线性收敛,超线性收敛,r 阶收敛。设相邻两个迭代点:x_(k+1), x_{k}, 最优值点 x*,若存在实数 q>0,满足:1. 若 0<q<1,则表示算法线性收敛2. 若 q=0,则表示算法超线性收敛若并且 r>1, q>=0, 则称算法 r 阶收敛。转载 2017-11-27 19:38:14 · 9911 阅读 · 0 评论 -
lasso 详介
lasso的今世前身引言 年关将至,少不了写年终总结。自己也绞尽脑汁对研读的统计文献做一个总结。我们来聊聊20年前诞生的lasso。lasso理论文章由统计学家Tibshirani, R在于1996年提出,并获得了里程碑式的影响。简单概述,lasso的目的就是选择合适的自变量。茫茫变量中怎么遇见合适的它。 此处说明下我们为什么要进行选变量这个动作? -变量维数多并且变量之间存在相关关系,所以转载 2017-11-27 19:36:27 · 4262 阅读 · 1 评论 -
lasso 回归 & 岭回归
岭回归(ridge regression)回忆 LR 的优化目标 L=(Y−Xw)T(Y−Xw)为防止过拟合,增加正则化项 λ||w||2 ,目标函数就变成 L=(Y−Xw)T(Y−Xw)+λ||w||2对其进行求导,得到 ∂L∂w=−2XT(Y−Xw)+2λw令导数为0,得 w=(XTX+λI)−1XTY 这就是岭回归的公式。岭回归具有以下优点:在特征数M,而岭回归就可以。通过引入λ转载 2017-11-27 19:33:16 · 1440 阅读 · 0 评论 -
岭回归 & lasso 回归
回归 就是 对数据进行拟合,我们常说的 线性回归、高斯回归、SVR、Softmax 都是属于 回归。 最小二乘大家再熟悉不过了,作为入门级的线性回归,可能会遇到的一些问题:(1)参数稳定性和精度问题 如果 观测数据和参数 之间有比较明显的线性关系,最小二乘回归会有很小的偏倚; 如果观测数据个数N远大于参数个数P时,最小二乘回归能得到较小的方差,如果N和转载 2017-11-27 19:30:23 · 845 阅读 · 0 评论 -
amijor nonmontone linesearch
用“人话”解释不精确线搜索中的Armijo-Goldstein准则及Wolfe-Powell准则line search(一维搜索,或线搜索)是最优化(Optimization)算法中的一个基础步骤/算法。它可以分为精确的一维搜索以及不精确的一维搜索两大类。在本文中,我想用“人话”解释一下不精确的一维搜索的两大准则:Armijo-Goldstein准则 & Wolfe-Powell准则。之所以这转载 2017-11-27 19:28:13 · 326 阅读 · 1 评论 -
method_硬阈值(Hard Thresholding)
1、硬阈值(Hard Thresholding)函数的符号 硬阈值(Hard Thresholding)并没有软阈值(Soft Thresholding)那么常见,这可能是因为硬阈值解决的问题是非凸的原因吧。硬阈值与软阈值由同一篇文献提出,硬阈值公式参见文献【1】的式( 11): 第一次邂逅硬阈值(HardThresholding)是在文献【2】中: 在查询转载 2017-11-27 19:26:06 · 963 阅读 · 0 评论 -
method_软阈值算子(Soft Thresholding)
1、软阈值(Soft Thresholding)函数的符号 软阈值(Soft Thresholding)目前非常常见,文献【1】【2】最早提出了这个概念。软阈值公式的表达方式归纳起来常见的有三种,以下是各文献中的软阈值定义符号:文献【1】式(12):文献【2】:文献【3】:文献【4】式(8):文献【5】式(1.5):文献【6】式(12)注释:文献【7】: 其中文献【1】转载 2017-11-27 19:16:59 · 12567 阅读 · 3 评论 -
method_FISTA(Fast iterative shrinkage-thresholding algorithm)
前言:FISTA(A fast iterative shrinkage-thresholding algorithm)是一种快速的迭代阈值收缩算法(ISTA)。FISTA和ISTA都是基于梯度下降的思想,在迭代过程中进行了更为聪明(smarter)的选择,从而达到更快的迭代速度。理论证明:FISTA和ISTA的迭代收敛速度分别为O(1/k2)和O(1/k)。 本篇博文先从解决优化问题的传统方法“转载 2017-11-26 15:25:11 · 5275 阅读 · 1 评论 -
method_CCA(canonical correlation analysis)
Canonical Correlation Analysis(CCA)典型相关分析也是一种常用的降维算法。我们知道,PCA(Principal Component Analysis) 主分量分析将数据从高维映射到低维空间同时,保证了数据的分散性尽可能地大, 也就是数据的方差或者协方差尽可能大。而LDA(Linear Discriminant Analysis) 线性判别分析则利用了类标签,利用一种监转载 2017-11-25 16:38:57 · 433 阅读 · 0 评论 -
机器学习中的最优化方法进阶
前言: 在机器学习方法中,若模型理解为决策模型,有些模型可以使用解析方法。不过更一般的对模型的求解使用优化的方法,更多的数据可以得到更多的精度。一、线性规划 线性规划、整数规划、目标规划等方法其目标函数与约束条件都是决策变量的一次函数,全部为线性规划,具有统一的数学模型及如单纯形法这样的通用解法。1947年丹齐格(G.B.Dantzig)提出了线性规划的一般方法——单纯形转载 2017-11-25 16:34:41 · 1046 阅读 · 0 评论 -
algo_ADMM(alternating direction multiplier method)
从等式约束的最小化问题说起: 上面问题的拉格朗日表达式为: 也就是前面的最小化问题可以写为:转载 2017-11-25 16:31:48 · 451 阅读 · 0 评论 -
algo_FISTA(fast shrinkage-thresholding algorithm)
前言:FISTA(A fast iterative shrinkage-thresholding algorithm)是一种快速的迭代阈值收缩算法(ISTA)。FISTA和ISTA都是基于梯度下降的思想,在迭代过程中进行了更为聪明(smarter)的选择,从而达到更快的迭代速度。理论证明:FISTA和ISTA的迭代收敛速度分别为O(1/k2)和O(1/k)。 本篇博文先从解决优化问题的传统方法转载 2017-11-25 16:05:24 · 2218 阅读 · 0 评论 -
algo_Coordinate descent
首先介绍一个算法:coordinate-wise minimization问题的描述:给定一个可微的凸函数,如果在某一点x,使得f(x)在每一个坐标轴上都是最小值,那么f(x)是不是一个全局的最小值。形式化的描述为:是不是对于所有的d,i都有这里的代表第i个标准基向量。答案为成立。这是因为:但是问题来了,如果对于凸函数f,若不可微该会怎样呢?答案为不成立,上面的图片就给出了一个反例。转载 2017-11-25 16:12:54 · 168 阅读 · 0 评论 -
opt summary
1 优化问题分类优化问题一般可分为两大类:无约束优化问题和约束优化问题,约束优化问题又可分为含等式约束优化问题和含不等式约束优化问题。无约束优化问题 含等式约束的优化问题 含不等式约束的优化问题2 求解策略针对以上三种情形,各有不同的处理策略: 无约束的优化问题:可直接对其求导,并使其为0,这样便能得到最终的最优解;含等式约束的优化问题:主要通过拉格朗日乘数法将含等式约束的优化问题转换成为无约束转载 2017-11-29 20:06:41 · 524 阅读 · 0 评论 -
method_SGD(Stochastic Gradient Descent)
刚刚看完斯坦福大学机器学习第四讲(牛顿法),也对学习过程做一次总结吧。一、误差准则函数与随机梯度下降:数学一点将就是,对于给定的一个点集(X,Y),找到一条曲线或者曲面,对其进行拟合之。同时称X中的变量为特征(Feature),Y值为预测值。如图:一个典型的机器学习的过程,首先给出一组输入数据X,我们的算法会通过一系列的过程得到一个估计的函数,这个函数有能力对没有见过的新数据给出一个新的估计Y,也被转载 2017-11-27 19:55:45 · 724 阅读 · 0 评论