数学基础—ML

转载~http://blog.csdn.net/u010536377/article/details/50252027#常见的算子范数

开篇
矩阵知识
Gram矩阵
定理1
向量范数和矩阵范数
常见的向量范数
矩阵范数
常见的矩阵范数
常见的算子范数
凸优化
凸集
凸函数
凸优化问题
仿射函数
拉格朗日对偶性
原始问题
对偶问题
开篇

机器学习里面有着众多的数学理论,虽说笔者是数学系出生。但是对于机器学习中的一些基本的数学理论有所遗忘,在这里总结回顾在机器学习过程中用到的数学知识。本文会随着学习过程,不断更新。欢迎留言评论,共同进步。

矩阵知识

如果XY=I,(I是单位矩阵),则称X是Y的逆矩阵。矩阵要可逆必须是方阵(即行数等于列数),即使矩阵是方阵,它也可能不可逆。如果某个矩阵不可逆,则称它为奇异或退化矩阵。
如果某个矩阵的一列可以表示为其他列的线性组合,则该矩阵是奇异矩阵。如果能这样表示,则可以把矩阵的一列全部规约为其他列的线性组合,则该矩阵是奇异矩阵。如果能够这样表示,则可以把一列全部规约为0。
矩阵求逆的步骤的办法很多,常用的可以补单位矩阵,通过行变化求得。
Gram矩阵

Gram中文名称为格拉姆矩阵,它是个有广泛应用的矩阵,其定义如下。

定义:n维欧式空间中任意k(k≤n)个向量α1,α2,…,αk的内积所组成的矩阵

Δ(α1,α2,…,αk)=⎛⎝⎜⎜⎜⎜(α1,α1)(α2,α1)…(αk,α1)(α1,α2)(α2,α2)…(αk,α2)…………(α1,αk)(α2,αk)…(αk,αk)⎞⎠⎟⎟⎟⎟

称为k个向量α1,α2,…,αk的格拉姆矩阵(Gram矩阵),它的行列式称为Gram行列式。
定理1

欧式空间中向量α1,α2,…,αk的Gram矩阵一定是半正定矩阵,是正定矩阵的充要条件是α1,α2,…,αk线性无关。
向量范数和矩阵范数

范数是机器学习领域常用的概念。矩阵的范数通常写成在||A||的形式。其实范数就是一个从Rm到R的映射,称为Rm上的向量范数。且范数需要满足:

(1)正定性:对所有的x属于正定性:对所有的x属于Rm,有||x||≥0,等号当且仅当x=0时成立。

(2)齐次性:对所有的x∈Rm和α∈R,有||αx||=α||x||
(3)三角不等式:对于所有的x,y∈Rm,有||x+y||≤||x||+||y||
常见的向量范数

(1)1-范数 ||x||1=∑ni=1|xi|
(2)2-范数 ||x||2=(∑ni=1x2i)12
(3)无穷范数 ||x||∞=max1≤i≤n|xi|
矩阵范数

设函数f:Rn×n→R,若f满足

(1)正定性 f(A)≥0,且f(A)=0⇔A=0
(2)齐次性 f(αA)=|α|⋅f(A),∀A∈Rm,∀α∈R
(3)三角不等式 f(AB)≤f(A)f(B)
则称f为Rn×n上的(矩阵)范数,通常记为||⋅||
常见的矩阵范数

(1)F-范数(Frobenious范数)
||A||=(∑ni=1∑nija2ij)12
(2)算子范数
||A||=max||x||=1||Ax||,其中||⋅||是Rn上的任意一个范数。
常见的算子范数

(1)1-范数(列范数)||A||=max1≤j≤n∑ni=1|aij|
(2)2-范数(谱范数)||A||2=ρ(ATA)−−−−−−√
(3)无穷范数(行范数)||A||∞=max1≤i≤n∑nj=1|aij|
凸优化

凸集

凸集的概念在运筹学(清华大学出版社)中有所提及,那本书中讨论的问题是线性规划问题。那么什么是凸集呢?

凸集的定义:当集合C满足下面条件时,称集合C是凸集。
∀x,y∈C,且θ∈R,当0≤θ≤1时,θx+(1−θ)y∈C
其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。其示意图如下所示。
图片来源网络

左边的图为凸集,右边的图为凹集。
凸函数

这个概念在微积分中是学习过的,在优化问题,为什么要用到凸函数呢?原因是:对于凸优化问题来说,局部最优解就是全局最优解。凸函数的定义如下。

f是Rn→R的映射。我们称f是凸函数当∀x,y∈D(f)且θ∈R,0≤θ≤1
例:x2,lnx都是凸函数。
凸优化问题

凸优化问题,在支持向量机的学习过程中有用到。总结如下。
下面是百度百科对于凸优化的定义。

”凸优化“ 是指一种比较特殊的优化,是指目标函数为凸函数且由约束条件得到的定义域为凸集的优化问题。—-《百度百科》
用数学语言来描述,即如下。

凸优化问题是指约束最优化问题
       minwf(w)
       s.t g(w)≤0,i=1,2,3,…,k
       hi(w)=0,i=1,2,…,l
其中,目标函数f(w)和约束函数gi(w)都是Rn上的连续可微的凸函数,约束函数hi(w)是Rn的仿射函数。当目标函数f(w)是二次函数且约束函数gi(w)是仿射函数时,上述凸最优化问题成为凸二次规划问题。
仿射函数

刚刚叙述到了仿射函数。其实仿射函数就是一个从k维到m维的一个映射。

仿射函数是由1阶多项式构成的函数,一般形式为 f(x)=Ax+b,这里,A 是一个m×k 矩阵,x 是一个 k 向量,b是一个m向量,实际上反映了一种从k 维到m 维的空间映射关系。
拉格朗日对偶性

在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转换为对偶问题,解对偶问题从而得到原始问题的解。单纯形算法中也有应用到对偶理论,在感知机和支持向量机的学习中都有涉及。

原始问题

那么什么是拉格朗日对偶性呢?(下面的叙述来自李航《统计学习方法》,加上些本人自己的看法)

假设f(x),ci(x),hj(x)是定义在Rn上的连续可微函数。考虑约束最优化问题
       minx∈Rnf(x)
       s.t ci(x)≤0,i=1,2,…,k
         hj(x)=0,j=1,2,…,l
称此约束最优化问题为原始问题。
下面引入拉格朗日函L(x,α,β)=f(x)+∑ki=1αici(x)+∑lj=1βjhj(x) 。这里,x=(x(1),x(2),…,x(n))T∈Rn,αi,βj是拉格朗日乘子,αi≥0。考虑x的函数:θp(x)=maxα,β,αi≥0L(x,α,β),这里下标P表示原始问题。
再做出假设,当x不满足约束条件时,认为
θp(x)=+∞。
且当x满足约束条件的时,θp(x)=f(x)。因此
θp(x)={f(x)+∞x满足原始问题约束其他
所以考虑极小化问题:minxθp(x)=minxmaxα,β,αi≥0L(x,α,β)。这样就将原始问题转换成广义拉格朗日函数极小极大问题。

对偶问题

和上面同理,我们可以得到广义拉格朗日函数的极大极小问题。形式如下。
maxxθD(α,β)=maxα,β;αi≥0minα,β,αi≥0L(x,α,β)
可以证明原始问题最优解求解出后,可以求出对偶最优解。
关于对偶问题的讲述,可以参见一些优化问题的书籍。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值