Data Sciense:数值优化
文章平均质量分 72
图灵的猫.
给行业以ai,而不是给ai以行业
展开
-
最优化:一维搜索的Wolfe条件与Goldstein条件
转载请注明出处:http://www.codelast.com/line search(一维搜索,或线搜索)是最优化(Optimization)算法中的一个基础步骤/算法。它可以分为精确的一维搜索以及不精确的一维搜索两大类。在本文中,我想用“人话”解释一下不精确的一维搜索的两大准则:Armijo-Goldstein准则 & Wolfe-Powell准则。之所以这样说,是因为我读到的所有最优化的书或...转载 2018-04-17 17:34:26 · 8390 阅读 · 2 评论 -
SMO算法最通俗易懂的解释
SVM通常用对偶问题来求解,这样的好处有两个:1、变量只有N个(N为训练集中的样本个数),原始问题中的变量数量与样本点的特征个数相同,当样本特征非常多时,求解难度较大。2、可以方便地引入核函数,求解非线性SVM。求解对偶问题,常用的算法是SMO,彻底地理解这个算法对初学者有一定难度,本文尝试模拟算法作者发明该算法的思考过程,让大家轻轻松松理解SMO算法。文中的“我”拟指发明算法的大神。转载 2018-06-18 13:32:56 · 70901 阅读 · 25 评论 -
机器学习之旅:支持向量机通俗导论(理解SVM的三层境界)
支持向量机通俗导论(理解SVM的三层境界)作者:July、pluskid ;致谢:白石、JerryLead出处:结构之法算法之道blog。前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但...转载 2018-06-05 11:40:48 · 1010 阅读 · 0 评论 -
随机梯度下降(SGD)和批量梯度下降(BGD)的区别
随机梯度下降(SGD, stochastic gradient descent):名字中已经体现了核心思想,随机选取一个店做梯度下降,而不是遍历所有样本后进行参数迭代。因为梯度下降法的代价函数计算需要遍历所有样本,而且是每次迭代都要遍历,直至达到局部最优解,在样本量庞大时就显得收敛速度比较慢了,计算量非常庞大。梯度下降(GD, gradient descent):梯度下降法是求解无约束最优化问题的一种常用方法,比较适用于控制变量较多,受控系统比较复杂,无法建立准确数学模型的最优化控制过程。原创 2018-05-26 11:02:44 · 6224 阅读 · 0 评论 -
数值优化(二):信赖域方法与二维空间法
由于B正定因此可以进行正交分解,B=QΛQT;Λ=diag(λ1,λ2,...,λn)并且λ1≤λ2≤...≤λnB=QΛQT;Λ=diag(λ1,λ2,...,λn)并且λ1≤λ2≤...≤λn由于是正交分解因此通过该节需要了解1. 信赖域方法和线搜索方法的不同2. 信赖域方法的基本形式3. 信赖域方法的柯西点算法、DogLeg算法和最优解迭代算法4. 信赖域方法收敛。原创 2018-04-20 15:46:56 · 2640 阅读 · 0 评论 -
三段话搞明白什么是Krylov子空间迭代法
Krylov方法是一种 “降维打击” 手段,有利有弊。其特点一是牺牲了精度换取了速度,二是在没有办法求解大型稀疏矩阵时,他给出了一种办法,虽然不精确。假设你有一个线性方程组:其中A是已知矩阵,b是已知向量,x是需要求解的未知向量。当你有这么个问题需要解决时,一般的思路是直接求A的逆矩阵,然后x就出来了:但是,如果A的维度很高,比方说1000*1000的矩阵,那么A就是一个大型...转载 2018-04-12 14:33:55 · 35532 阅读 · 14 评论 -
什么是次梯度(次导数)
在说次梯度之前,需要先简单介绍一下导数的概念与定义。导数(英语:Derivative)是微积分学中重要的基础概念。一个函数在某一点的导数描述了这个函数在这一点附近的变化率。导数的本质是通过极限的概念对函数进行局部的线性逼近。对于一般的函数f(x)f(x),其导数为:如果不使用增量,f(x)f(x)在 x0x0处的导数 也可以定义为:当定义域内的变量 xx趋近于 x0x0时,原创 2018-08-20 21:08:18 · 17320 阅读 · 2 评论