1、最速下降法和牛顿法
1.1 最速下降法
计算步骤如下:
(1)给定初始点x(1)∈R(n)x(1)∈R(n),允许误差ϵϵ>0,置k=1k=1;
(2)计算搜索方向d(k)=−▽f(x(k))d(k)=−▽f(x(k));
(3)若||d(k)||≤ϵ||d(k)||≤ϵ,则停止计算;否则,从x(k)x(k)沿d(k)d(k)进行一维搜索,求λkλk,使得
f(x(k)+λkd(k))=min(f(x(k)+λd(k)))f(x(k)+λkd(k))=min(f(x(k)+λd(k)))
其中保证所求的λk≥0λk≥0;
(4)置x(k+1)=x(k)+λkd(k)x(k+1)=x(k)+λkd(k),置k=k+1k=k+1,转到步骤(2)。
1.2 牛顿法
设f(x)f(x)是二次可微实函数,又设x(k)x(k)是f(x)f(x)的极小值的一个估计,f(x)f(x)在x(k)x(k)的二阶泰勒展开式为:
f(x)≈f(x(k))+▽f(x(k))T(x−x(k))+12(x−x(k))T▽2f(x(k))(x−x(k))f(x)≈f(x(k))+▽f(x(k))T(x−x(k))+12(x−x(k))T▽2f(x(k))(x−x(k))
对上式求导得:
▽f(x(k))+▽2f(x(k))(x−x(k))=0▽f(x(k))+▽2f(x(k))(x−x(k))=0
设▽2f(x(k))▽2f(x(k))可逆,得到牛顿法的迭代公式:
x(k+1)=x(k)−▽f(x(k))▽2f(x(k))x(k+1)=x(k)−▽f(x(k))▽2f(x(k)).
当牛顿法收敛时,有下列关系:||x(k+1)−x¯¯¯||≤c||x(k)−x¯¯¯||2||x(k+1)−x¯||≤c||x(k)−x¯||2,因而其具有二次收敛性。
对于二次凸函数,牛顿法经过有限次迭代必定能达到极小值,这种性质称为二次终止性。
2、广义线性分布
广义高斯模型是基于指数分布族的,指数分布族的原型如下:
P(y;η)=b(y)exp(ηTT(y)−a(η))P(y;η)=b(y)exp(ηTT(y)−a(η))
其中ηη为自然参数,它可能是一个向量,而T(y)T(y)叫做充分统计量,它也可能是一个向量,通常T(y)=yT(y)=y。
2.1 伯努利分布
概率分布为:P(y=1|x)=ϕP(y=1|x)=ϕ
则
P(y|x)=ϕy(1−ϕ)(1−y)=exp[ylogϕ+(1−y)log(1−ϕ)]=exp[ylog(ϕ1−ϕ)+log(1−ϕ)]P(y|x)=ϕy(1−ϕ)(1−y)=exp[ylogϕ+(1−y)log(1−ϕ)]=exp[ylog(ϕ1−ϕ)+log(1−ϕ)]
其中η=log(ϕ1−ϕ)η=log(ϕ1−ϕ),求得ϕ=11+exp(−η)ϕ=11+exp(−η)。若g(η)=11+exp(−η)g(η)=11+exp(−η),那么g(η)g(η)为正则响应函数,g(η)−1g(η)−1为正则关联函数。
2.2 高斯分布
概率密度函数为:p(y|x)=1(√2π)σexp(−(y−μ)22σ2)p(y|x)=1(2π)σexp(−(y−μ)22σ2)
则
p(y|x)=1(√2π)σexp(−(y−μ)22σ2)=1(√2π)σexp(−(y2+μ2−2yμ)2σ2)=1(√2π)σexp(−y22σ2)exp(2yμ2σ2−μ22σ2)p(y|x)=1(2π)σexp(−(y−μ)22σ2)=1(2π)σexp(−(y2+μ2−2yμ)2σ2)=1(2π)σexp(−y22σ2)exp(2yμ2σ2−μ22σ2)
2.3 广义线性回归的三个假设
(1)y|x;θy|x;θ服从参数为ηη的指数族分布;
(2)给定xx后,我们希望的输出为:h(x)=E(T(y)|x)h(x)=E(T(y)|x);
(3)η=θTx[ηi=θTix]η=θTx[ηi=θiTx].
2.3.1 伯努利分布
伯努利分布满足广义线性回归的三个假设,其中h(x)=ϕ=11+exp(−η)=11+exp(−θx)h(x)=ϕ=11+exp(−η)=11+exp(−θx)。
2.3.2 softmax回归
y∈1,2,...,ky∈1,2,...,k
参数:ϕ1,ϕ2,...,ϕkϕ1,ϕ2,...,ϕk,其中P(y=i)=ϕiP(y=i)=ϕi。其中ϕk=1−∑k−1i=1ϕiϕk=1−∑i=1k−1ϕi。
对于y∈1,2,...,ky∈1,2,...,k,
T(1)=[1,0,...,0]TT(1)=[1,0,...,0]T,T(2)=[0,1,...,0]TT(2)=[0,1,...,0]T,…,T(k−1)=[0,0,...,1]TT(k−1)=[0,0,...,1]T,T(k)=[0,0,...,0]TT(k)=[0,0,...,0]T。
令T(y)i=1{y==i}T(y)i=1{y==i}
P(y|x)=ϕ1{y=1}1ϕ1{y=2}2...ϕ1{y=k}k=ϕT(y)11ϕT(y)22...ϕ1−∑k−1i=1T(y)ik=exp{T(y)1logϕ1+T(y)1logϕ2]+...+[1−∑k−1i=1T(y)i]logϕk}=exp{[T(y)1,T(y)2],...,T(y)k−1]T.[logϕ1ϕk,logϕ2ϕk,...,logϕk−1ϕk]+logϕk}P(y|x)=ϕ11{y=1}ϕ21{y=2}...ϕk1{y=k}=ϕ1T(y)1ϕ2T(y)2...ϕk1−∑i=1k−1T(y)i=exp{T(y)1logϕ1+T(y)1logϕ2]+...+[1−∑i=1k−1T(y)i]logϕk}=exp{[T(y)1,T(y)2],...,T(y)k−1]T.[logϕ1ϕk,logϕ2ϕk,...,logϕk−1ϕk]+logϕk}
则η=[logϕ1ϕk,logϕ2ϕk,...,logϕk−1ϕk]T,a=−logϕk,b(y)=1.η=[logϕ1ϕk,logϕ2ϕk,...,logϕk−1ϕk]T,a=−logϕk,b(y)=1.
则ϕi=exp(ηi)1+∑ki=1exp(ηi)=exp(θTix)1+∑ki=1exp(θTix)ϕi=exp(ηi)1+∑i=1kexp(ηi)=exp(θiTx)1+∑i=1kexp(θiTx).
则hθ(x)=[ϕ1,ϕ2,...,ϕk]Thθ(x)=[ϕ1,ϕ2,...,ϕk]T.