- 博客(35)
- 收藏
- 关注
转载 opt summary
1 优化问题分类优化问题一般可分为两大类:无约束优化问题和约束优化问题,约束优化问题又可分为含等式约束优化问题和含不等式约束优化问题。无约束优化问题 含等式约束的优化问题 含不等式约束的优化问题2 求解策略针对以上三种情形,各有不同的处理策略: 无约束的优化问题:可直接对其求导,并使其为0,这样便能得到最终的最优解;含等式约束的优化问题:主要通过拉格朗日乘数法将含等式约束的优化问题转换成为无约束
2017-11-29 20:06:41
482
转载 矩阵求导
前言 本文为维基百科上矩阵微积分部分的翻译内容。本文为原文的翻译与个人总结,非一一对照翻译。由于水平不足理解不够处,敬请原谅与指出。原文地址https://en.wikipedia.org/wiki/Matrix_calculus。原文为矩阵微积分,本文题为矩阵求导,原因是原文主要介绍的是矩阵微分的内容。1 简介矩阵的微积分本质上是多元变量的微积分的问题,只是应用在矩阵空间上而已。在讨论矩阵微
2017-11-28 19:38:46
599
转载 python_SVD_matlab版svd(U*S*V^T) & python版numpy.linalg.svd(U*S*V)
下面是两个测试,同样的数据,不同的版本,请诸君仔细看来:1.Matlab版SVD分解[plain] view plain copy print?H = [3.16991321031250,52.4425641326457,2.73475152482102;-8.76695007100685,43.4831885343255,-37.1705395356264;-1.59218748085971,-
2017-11-28 15:24:57
1234
转载 python_numpy.linalg_部分解释
(1)np.linalg.inv():矩阵求逆(2)np.linalg.det():矩阵求行列式(标量)np.linalg.norm顾名思义,linalg=linear+algebra则表示范数,首先需要注意的是范数是对向量(或者矩阵)的度量,是一个标量(scalar):首先help(np.linalg.norm)查看其文档:norm(x, ord=None, axis=None, keepdi
2017-11-28 15:11:25
4005
转载 DL_tf-activation function and tf.nn.dropout
参考《Tensorflow技术解析与实战》激活函数激活函数(activation function)将神经元计算wTx+b的结果经过非线性表达映射到下一层。需要可微,激活函数不会改变输入数据维度。sigmoid函数:σ(x)=11+e−x(1) 将输出映射到(0,1)内,缺点: 软饱和性:取值无穷大时,一阶导数趋于0,容易产生梯度消失。(硬饱和:某阶段一阶导数等于0) tanh函数:ta
2017-11-28 14:50:45
325
转载 Laplace Beltrami Operator
laplace-beltrami operator 是 laplace operator在riemann manifolds上的拓展. 至于他们两到底有什么区别和联系,请看[2]中的一段话: 可以看到, laplace-beltrami operator与普通laplace operator的区别就在于一个metric G,那么这个metric G究竟是个什么东西?注意这里的局部坐标系底面的两个
2017-11-28 14:48:09
2575
转载 method_SGD(Stochastic Gradient Descent)
刚刚看完斯坦福大学机器学习第四讲(牛顿法),也对学习过程做一次总结吧。一、误差准则函数与随机梯度下降:数学一点将就是,对于给定的一个点集(X,Y),找到一条曲线或者曲面,对其进行拟合之。同时称X中的变量为特征(Feature),Y值为预测值。如图:一个典型的机器学习的过程,首先给出一组输入数据X,我们的算法会通过一系列的过程得到一个估计的函数,这个函数有能力对没有见过的新数据给出一个新的估计Y,也被
2017-11-27 19:55:45
704
转载 method_Nesterov's Accelerated Gradient Descent
一般的梯度下降算法的收敛速率为 o(1/t).1.简介:加速梯度算法(AGD)是梯度算法(GD)的一个改进的版本。Nesterov 在1983年首次提出。人们已经证明AGD算法是所有基于梯度算法(或者说一阶)算法中最好的方法。然而原始的AGD算法仅能处理光滑的凸优化问题。最新的进展是,将AGD扩展到了更广泛类型的凸优化问题: minxf(x)+g(x) 其中f(x)是闭凸函数。同样可以获得相似
2017-11-27 19:48:20
4552
转载 收敛速率
最优化理论中,评价一个算法的收敛速度有两个衡量尺度,Q-收敛与 R-收敛,我们一般用到的是 Q-收敛,它包括:线性收敛,超线性收敛,r 阶收敛。设相邻两个迭代点:x_(k+1), x_{k}, 最优值点 x*,若存在实数 q>0,满足:1. 若 0<q<1,则表示算法线性收敛2. 若 q=0,则表示算法超线性收敛若并且 r>1, q>=0, 则称算法 r 阶收敛。
2017-11-27 19:38:14
9815
转载 lasso 详介
lasso的今世前身引言 年关将至,少不了写年终总结。自己也绞尽脑汁对研读的统计文献做一个总结。我们来聊聊20年前诞生的lasso。lasso理论文章由统计学家Tibshirani, R在于1996年提出,并获得了里程碑式的影响。简单概述,lasso的目的就是选择合适的自变量。茫茫变量中怎么遇见合适的它。 此处说明下我们为什么要进行选变量这个动作? -变量维数多并且变量之间存在相关关系,所以
2017-11-27 19:36:27
4018
1
转载 lasso 回归 & 岭回归
岭回归(ridge regression)回忆 LR 的优化目标 L=(Y−Xw)T(Y−Xw)为防止过拟合,增加正则化项 λ||w||2 ,目标函数就变成 L=(Y−Xw)T(Y−Xw)+λ||w||2对其进行求导,得到 ∂L∂w=−2XT(Y−Xw)+2λw令导数为0,得 w=(XTX+λI)−1XTY 这就是岭回归的公式。岭回归具有以下优点:在特征数M,而岭回归就可以。通过引入λ
2017-11-27 19:33:16
1377
转载 岭回归 & lasso 回归
回归 就是 对数据进行拟合,我们常说的 线性回归、高斯回归、SVR、Softmax 都是属于 回归。 最小二乘大家再熟悉不过了,作为入门级的线性回归,可能会遇到的一些问题:(1)参数稳定性和精度问题 如果 观测数据和参数 之间有比较明显的线性关系,最小二乘回归会有很小的偏倚; 如果观测数据个数N远大于参数个数P时,最小二乘回归能得到较小的方差,如果N和
2017-11-27 19:30:23
821
转载 amijor nonmontone linesearch
用“人话”解释不精确线搜索中的Armijo-Goldstein准则及Wolfe-Powell准则line search(一维搜索,或线搜索)是最优化(Optimization)算法中的一个基础步骤/算法。它可以分为精确的一维搜索以及不精确的一维搜索两大类。在本文中,我想用“人话”解释一下不精确的一维搜索的两大准则:Armijo-Goldstein准则 & Wolfe-Powell准则。之所以这
2017-11-27 19:28:13
287
1
转载 method_硬阈值(Hard Thresholding)
1、硬阈值(Hard Thresholding)函数的符号 硬阈值(Hard Thresholding)并没有软阈值(Soft Thresholding)那么常见,这可能是因为硬阈值解决的问题是非凸的原因吧。硬阈值与软阈值由同一篇文献提出,硬阈值公式参见文献【1】的式( 11): 第一次邂逅硬阈值(HardThresholding)是在文献【2】中: 在查询
2017-11-27 19:26:06
940
转载 Riemanian manifold
对于流形,我在机器学习中的认识就是局部欧式距离的应用,当然其背后强大的数学逻辑也不是一时可以窥全貌,只好先看看一些基础概念。1、基本概念流形,是局部具有欧几里得空间性质的空间,是欧几里得空间中的曲线、曲面等概念的推广。欧几里得空间就是最简单的流形的实例。地球表面这样的球面则是一个稍微复杂的例子。一般的流形可以通过把许多平直的片折弯并粘连而成。流形在数学中用于描述几何形体,它们为研究形体的可微性
2017-11-27 19:18:14
363
转载 method_软阈值算子(Soft Thresholding)
1、软阈值(Soft Thresholding)函数的符号 软阈值(Soft Thresholding)目前非常常见,文献【1】【2】最早提出了这个概念。软阈值公式的表达方式归纳起来常见的有三种,以下是各文献中的软阈值定义符号:文献【1】式(12):文献【2】:文献【3】:文献【4】式(8):文献【5】式(1.5):文献【6】式(12)注释:文献【7】: 其中文献【1】
2017-11-27 19:16:59
12192
3
转载 method_FISTA(Fast iterative shrinkage-thresholding algorithm)
前言:FISTA(A fast iterative shrinkage-thresholding algorithm)是一种快速的迭代阈值收缩算法(ISTA)。FISTA和ISTA都是基于梯度下降的思想,在迭代过程中进行了更为聪明(smarter)的选择,从而达到更快的迭代速度。理论证明:FISTA和ISTA的迭代收敛速度分别为O(1/k2)和O(1/k)。 本篇博文先从解决优化问题的传统方法“
2017-11-26 15:25:11
5178
1
转载 LLE(locally linear embedding)原理介绍
LLE原理局部线性嵌入(Locally Linear Embedding, LLE)是无监督非线性降维算法,是流行学习的一种。LLE和Isomap一样试图在降维过程中保持高维空间中的流形结构。Isomap把任意两个样本点之间的测地距离作为流形结构的特征,而LLE认为局部关系刻画了流形结构。LLE认为,在高维中间中的任意一个样本点和它的邻居样本点近似位于一个超平面上,所以该样本点可以通过其邻居样本点的
2017-11-26 15:21:26
5904
1
转载 降维方法小结
数据的形式是多种多样的,维度也是各不相同的,当实际问题中遇到很高的维度时,如何给他降到较低的维度上?前文提到进行属性选择,当然这是一种很好的方法,这里另外提供一种从高维特征空间向低纬特征空间映射的思路。数据降维的目的 数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。数据降维的方法 主要的方法是线性映射和非线性映射方法两大类。线性映射
2017-11-26 15:17:27
1814
转载 method_SVD(Singular value decomposition)
前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面,也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较复杂的矩阵用更小更简单的几个子
2017-11-26 15:12:16
815
转载 流形学习方法
流形学习 (manifold learning)流形学习是个很广泛的概念。这里我主要谈的是自从2000年以后形成的流形学习概念和其主要代表方法。自从2000年以后,流形学习被认为属于非线性降维的一个分支。众所周知,引导这一领域迅速发展的是2000年Science杂志上的两篇文章: Isomap and LLE (Locally Linear Embedding)。1. 流形学习的基本概念那流形学习是
2017-11-26 15:09:05
462
转载 method_LPP(Locality preserving projections)
本文是对何晓飞老师的论文Locality Preserving Projections及其代码的一些简单j介绍,论文及代码均可以在何老师主页上下载。一、LPP简介线性投影映射最优化地保存了数据集的邻近结构与PCA可作为二选一的技术在外围空间各处均有定义(不只在训练数据点上有定义,在新的测试数据点上也能够定义)二、LPP算法实现设有数据集,现在要找到一个转换矩阵将这m个点映射到新的数据集空间,
2017-11-26 15:04:57
3711
1
原创 流形学习方法概述
流形学习 假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。流形学习方法是模式识别中的基本方法,分为线性流形学习算法和非线性流形学习算法,线性方法就是传统的方法如主成分分析(PCA)和线性判别分析(LDA),非
2017-11-26 15:02:17
1362
1
转载 method_Robust PCA
主成分分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。我们知道,最简单的主成分分析方法就是PCA了。从线性代数的角度看,PCA的目标就是使用另一组基去重新描述得到的数据空间。希望在这组新的基下,能尽量揭示原有的数据间的关系。这个维度即最重要的“主元”。PCA的目标就是找到这样的“主元”,最大程度的去除冗余和噪音的干扰。
2017-11-26 10:13:51
215
转载 机器学习基石_课后练习答案链接
这个专题我主要讲的是Coursera-台湾大学-機器學習基石(Machine Learning Foundations)的课后习题解答。笔者是在学习了Ng的Machine Learning之后开始学习这门课程的,但还是感觉收获颇丰。Ng的课程主要站在计算机专业的角度,教你如何使用机器学习,注重方法而不是数学推导,是一门很好的入门教程;而林轩田老师的机器学习基石是站在统计分析角度,证明机器学习算法为什
2017-11-26 10:10:34
2229
转载 method_LLE(Locally linear embdding)
局部线性嵌入(Locally Linear Embedding,以下简称LLE)也是非常重要的降维方法。和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,它广泛的用于图像图像识别,高维数据可视化等领域。下面我们就对LLE的原理做一个总结。1. 流形学习概述 LLE属于流形学习(Manifold Lea
2017-11-26 09:43:29
422
转载 algo_KNN(k-nearest neighbor)
1 k-NN算法k-近邻(k-Nearest Neighbors, k-NN)算法是机器学习中非常简单的一个算法,可以用于分类和回归问题。 其基本思想是,在特征空间中接近的两个实例,其类别/函数值也接近。对实例x,找到训练样本中和其接近的实例,也就是近邻,然后根据近邻的类别/函数值预测实例x的类别/函数值。1.1 训练k-NN算法的训练过程非常简单,仅仅需要把训练数据存储起来。k-NN算法是一种懒
2017-11-25 16:54:17
297
转载 机器学习基本概念
1. 机器学习定义 机器学习(Arthur Samuel,1959):在确定编程之外给予计算机学习能力的研究领域。机器学习(Tom Mitchell,1998):如果计算机程序对于任务T的性能度量P通过经验E得到了提高,则认为此程序对E进行了学习。2. 机器学习四个主要内容-监督学习:包括回归(连续性问题:预测值或目标变量是连续的)、分类(离散性问题:预测值或目标变量是离散值)。需要训练集,训练集
2017-11-25 16:47:16
185
转载 method_CCA(canonical correlation analysis)
Canonical Correlation Analysis(CCA)典型相关分析也是一种常用的降维算法。我们知道,PCA(Principal Component Analysis) 主分量分析将数据从高维映射到低维空间同时,保证了数据的分散性尽可能地大, 也就是数据的方差或者协方差尽可能大。而LDA(Linear Discriminant Analysis) 线性判别分析则利用了类标签,利用一种监
2017-11-25 16:38:57
413
转载 机器学习中的最优化方法进阶
前言: 在机器学习方法中,若模型理解为决策模型,有些模型可以使用解析方法。不过更一般的对模型的求解使用优化的方法,更多的数据可以得到更多的精度。一、线性规划 线性规划、整数规划、目标规划等方法其目标函数与约束条件都是决策变量的一次函数,全部为线性规划,具有统一的数学模型及如单纯形法这样的通用解法。1947年丹齐格(G.B.Dantzig)提出了线性规划的一般方法——单纯形
2017-11-25 16:34:41
992
转载 algo_ADMM(alternating direction multiplier method)
从等式约束的最小化问题说起: 上面问题的拉格朗日表达式为: 也就是前面的最小化问题可以写为:
2017-11-25 16:31:48
433
转载 Type setting_latex 表格
彩色表格[plain] view plain copy print?\begin{table} </span></span></li><li class=""><span>\centering </span></li><li class="alt"><span>\caption{彩色的表格} </span></li><li clas
2017-11-25 16:27:55
349
转载 method_Robust PCA
很久很久没有写学习笔记了,现在记录一个老知识。主成分分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。我们知道,最简单的主成分分析方法就是PCA了。从线性代数的角度看,PCA的目标就是使用另一组基去重新描述得到的数据空间。希望在这组新的基下,能尽量揭示原有的数据间的关系。这个维度即最重要的“主元”。PCA的目标就是找到这
2017-11-25 16:21:45
285
转载 algo_Coordinate descent
首先介绍一个算法:coordinate-wise minimization问题的描述:给定一个可微的凸函数,如果在某一点x,使得f(x)在每一个坐标轴上都是最小值,那么f(x)是不是一个全局的最小值。形式化的描述为:是不是对于所有的d,i都有这里的代表第i个标准基向量。答案为成立。这是因为:但是问题来了,如果对于凸函数f,若不可微该会怎样呢?答案为不成立,上面的图片就给出了一个反例。
2017-11-25 16:12:54
158
转载 algo_FISTA(fast shrinkage-thresholding algorithm)
前言:FISTA(A fast iterative shrinkage-thresholding algorithm)是一种快速的迭代阈值收缩算法(ISTA)。FISTA和ISTA都是基于梯度下降的思想,在迭代过程中进行了更为聪明(smarter)的选择,从而达到更快的迭代速度。理论证明:FISTA和ISTA的迭代收敛速度分别为O(1/k2)和O(1/k)。 本篇博文先从解决优化问题的传统方法
2017-11-25 16:05:24
2164
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人