数学
guofei_fly
这个作者很懒,什么都没留下…
展开
-
梯度下降法的优化算法
如前文梯度下降法中所介绍的,梯度下降法存在如下问题导致其迭代的可行性和效率大打折扣:(1)梯度不存在;(2)非凸函数的鞍点和局部最优解;(3)函数的信息利用率不高;(4)学习率需预设且取值固定。本文提到的梯度下降法的优化算法指:针对问题(2)、(3)和(4)提出的基于梯度下降法的Moment、AdaGrad和Adam等一系列算法。而这系列算法的核心改良思路包括两点:(1)通过引入历史迭...原创 2020-01-11 18:58:09 · 1001 阅读 · 0 评论 -
梯度下降法的不同形式——随机梯度下降法和小批量梯度下降法
前文介绍了梯度下降法,其每次迭代均需使用全部的样本,因此计算量巨大。就此,提出了基于单个样本的随机梯度下降法(Stochastic gradient descent,SGD)和基于部分样本的小批量梯度下降法(Mini-Batch gradient descent,Mini-batch gradient descent)。一、随机梯度下降法随机梯度下降法,即在每次梯度更新过程中仅使用某个随机样...原创 2020-01-05 21:36:12 · 1514 阅读 · 0 评论 -
最小角回归算法(LARS)
最小角回归算法(Least Angle Regression,LAR)是一种针对于线性回归问题,快速进行特征选择和回归系数计算的迭代算法,其被广泛推广用于求解线性回归以及Lasso回归问题。最小角回归算法的核心思想为:将回归目标向量依次分解为若干组特征向量的线性组合,最终使得与所有特征均线性无关的残差向量最小。可见,最小角回归算法的关键在于选择正确的特征向量分解顺序和分解系数。为了更好的表示最...原创 2020-01-05 20:35:01 · 13109 阅读 · 0 评论 -
近端梯度法(proximal gradient)
近端梯度法是一种求解不可微凸函数最优化问题的经典方法。其核心思想在于将不可微凸函数的最优化问题转换为易求解的proximal映射函数,从而实现近似求解。一、proximal映射proximal映射是近端梯度法的核心方法。假设约束函数f(x)f(\boldsymbol x)f(x)的定义域为U\boldsymbol UU,定义自变量x\boldsymbol xx的proximal映射为:prox...原创 2020-01-05 10:47:42 · 3709 阅读 · 0 评论 -
牛顿法
牛顿法是一种高效的迭代算法,其被广泛应用于方程求根和凸函数最优化。一、牛顿法在方程求根中的应用函数f(x)f(x)f(x)的一阶泰勒展开式为:f(x)=f(x0)+f′(x0)(x−x0)f(x)=f(x_0)+f'(x_0)(x-x_0)f(x)=f(x0)+f′(x0)(x−x0)函数的根即为f(x)=0f(x)=0f(x)=0处,由此得到迭代公式:x=x0−f(x0)f′(x0)x...原创 2020-01-04 10:27:59 · 2163 阅读 · 0 评论 -
最小二乘法
最小二乘法是历史上非常有名的用于解决回归最值的方法,其可以理解为回归问题平方损失函数的解析解。假设数据集为(X,y)(\boldsymbol X,\boldsymbol y)(X,y),线性模型系数为W\boldsymbol WW,则对应的平方损失函数为:L(X,y;W)=(y−XW)T(y−XW)L(\boldsymbol X,\boldsymbol y;\boldsymbol W) =(...原创 2020-01-03 21:54:26 · 965 阅读 · 1 评论 -
坐标下降法
一、基本思想分治、有效性二、坐标下降法的适用性2.1 可微凸函数2.2 不可微凸函数2.3 可微凸函数和不可微凸函数的联合函数三、注意事项3.1 坐标轴迭代的无序性3.2 块坐标轴下降法3.3 坐标轴的相关性影响...原创 2020-01-03 00:21:57 · 3174 阅读 · 0 评论 -
次梯度法
在前文梯度下降法(一)从导数到梯度下降法的基本逻辑中指出,当函数梯度不存在时候,梯度下降法失效,而次梯度法则是凸优化中解决此类状况的一种有效方法。一、基本定义为了介绍次梯度的概念,首先需要引入次导数、次微分等概念。这些概念源于导数、微分,但又有显著的区别。1. 次导数下图中的一元函数均为凸函数,但在其拐点处不可导。观察拐点A、B处的直线,按照其与原始函数的位置关系,可分为如下两大类:1)...原创 2020-01-01 16:06:15 · 2248 阅读 · 1 评论 -
梯度下降法(一)从导数到梯度下降法的基本逻辑
梯度下降法是机器学习算法中最常用的迭代优化数值算法,尤其是在深度学习神经网络的BP算法中扮演者重要作用。理解其基本原理是每个MLer的基础能力。本文从一元函数的导数出发,不加详细证明的给出梯度下降法背后的基本数据逻辑。1. 从导数到梯度(1) 一元函数的导数:自变量变化无穷小引起的因变量改变值的极限f′(x)=limΔx→0f(x+Δx)−f(x)Δxf'(x)=\lim\limits_...原创 2019-12-30 16:34:29 · 722 阅读 · 0 评论 -
SVM算法(一)预备知识
SVM(支持向量机)是一种强大的机器学习算法,被广泛用于分类和回归问题。本系列将简要介绍SVM的推导过程和基本应用。考虑到SVM涉及到繁杂的数学推导,第一篇先介绍下前置的数学知识。一、感知机感知机是SVM的基础,也蕴含了早期神经网络NN的思想。感知机是一种用于求解二分类的判别式线性模型,其假设输入数据{(x1,y1),(x2,y2),...(xi,yi)...(xN,yN)}\{(x_1,y...原创 2019-10-07 16:38:29 · 365 阅读 · 0 评论 -
PCA降维(一)基础理论
PCA(主成分分析,principal components analysis)是最常用的无监督式降维方法,其核心思想是寻找一组低维空间的正交基来投影原始空间数据,在保证尽可能保留原始数据信息的同时,降低数据特征空间。一、几何解释在二维几何空间内来理解PCA的大致思路:即对于二维空间内的一堆散点,寻找一条直线,使得各点在直线上进行表示的某种度量能够尽可能的体现散点在二维空间内的分布情况。推广...原创 2019-10-06 15:10:36 · 544 阅读 · 0 评论 -
矩阵理论(三)向量矩阵的求导
在各类机器学习和深度学习算法的推导过程中,尤其是通过损失函数求解参数最优解过程中,经常用到向量矩阵的求导。从本质上讲,向量矩阵求导就是将多元标量函数求导按照一定的布局排列为向量或矩阵。按照求导中自变量和因变量的关系,标量、向量、矩阵可排列组合为9种组合(见下表)。本文仅涉及标量与向量和矩阵,向量与向量的五种求导。而矩阵和向量间的混合求导不做涉及。自变量/因变量标量y向量????矩阵????...原创 2019-09-29 15:01:53 · 3140 阅读 · 1 评论 -
矩阵理论(二)特征值分解和SVD分解
矩阵的SVD分解在机器学习的各类算法中被广泛使用(如文本LSI、推荐算法等等),而PCA降维作为SVD分解的直接使用,是最基础和最常用的降维算法。一、向量矩阵运算的理解SVD分解涉及到不少向量矩阵知识,在正式介绍前先简要介绍下向量矩阵的基本知识。为方便解释,这里设矩阵AAA,矩阵元素为aij,i=a_{ij},i=aij,i=,列向量a\boldsymbol aa、b\boldsymbol ...原创 2019-09-22 19:50:35 · 3461 阅读 · 0 评论 -
矩阵理论(一)基本概念的个人理解
在机器学习中,各个特征代表着高维度空间的信息。因此在数据的处理和算法的推导上,往往借助于矩阵和线性代数的基本理论。该系列希望通过对相关概念和公式的推导,加深对矩阵和线性代数的理解。在这篇文章中,通过问答的形式阐述基本概念。1. 向量和矩阵的意义?就像数字1、2一样,向量和矩阵是人为设计的用来记录数据载体。从不同的角度来看,其存在不同的解释。从计算机工作者的眼中,其可以用来记录有序的数据(列表)...原创 2019-09-22 11:45:09 · 11165 阅读 · 0 评论