斯坦福机器学习公开课(4)

1、最速下降法和牛顿法

1.1 最速下降法

计算步骤如下:

(1)给定初始点 x(1)R(n) ,允许误差 ϵ >0,置 k=1

(2)计算搜索方向 d(k)=f(x(k))

(3)若 ||d(k)||ϵ ,则停止计算;否则,从 x(k) 沿 d(k) 进行一维搜索,求 λk ,使得

f(x(k)+λkd(k))=min(f(x(k)+λd(k)))

其中保证所求的 λk0

(4)置 x(k+1)=x(k)+λkd(k) ,置 k=k+1 ,转到步骤(2)。

1.2 牛顿法

f(x) 是二次可微实函数,又设 x(k) f(x) 的极小值的一个估计, f(x) x(k) 的二阶泰勒展开式为:

f(x)f(x(k))+f(x(k))T(xx(k))+12(xx(k))T2f(x(k))(xx(k))

对上式求导得:
f(x(k))+2f(x(k))(xx(k))=0

2f(x(k)) 可逆,得到牛顿法的迭代公式:

x(k+1)=x(k)f(x(k))2f(x(k)) .

当牛顿法收敛时,有下列关系: ||x(k+1)x||c||x(k)x||2 ,因而其具有二次收敛性。

对于二次凸函数,牛顿法经过有限次迭代必定能达到极小值,这种性质称为二次终止性。

2、广义线性分布

广义高斯模型是基于指数分布族的,指数分布族的原型如下:
P(y;η)=b(y)exp(ηTT(y)a(η))

其中 η 为自然参数,它可能是一个向量,而 T(y) 叫做充分统计量,它也可能是一个向量,通常 T(y)=y

2.1 伯努利分布

概率分布为: P(y=1|x)=ϕ

P(y|x)=ϕy(1ϕ)(1y)=exp[ylogϕ+(1y)log(1ϕ)]=exp[ylog(ϕ1ϕ)+log(1ϕ)]

其中 η=log(ϕ1ϕ) ,求得 ϕ=11+exp(η) 。若 g(η)=11+exp(η) ,那么 g(η) 为正则响应函数, g(η)1 为正则关联函数。

2.2 高斯分布

概率密度函数为: p(y|x)=1(2π)σexp((yμ)22σ2)

p(y|x)=1(2π)σexp((yμ)22σ2)=1(2π)σexp((y2+μ22yμ)2σ2)=1(2π)σexp(y22σ2)exp(2yμ2σ2μ22σ2)

2.3 广义线性回归的三个假设

(1) y|x;θ 服从参数为 η 的指数族分布;

(2)给定 x 后,我们希望的输出为:h(x)=E(T(y)|x);

(3) η=θTx[ηi=θTix] .

2.3.1 伯努利分布

伯努利分布满足广义线性回归的三个假设,其中 h(x)=ϕ=11+exp(η)=11+exp(θx)

2.3.2 softmax回归

y1,2,...,k

参数: ϕ1,ϕ2,...,ϕk ,其中 P(y=i)=ϕi 。其中 ϕk=1k1i=1ϕi

对于 y1,2,...,k

T(1)=[1,0,...,0]T T(2)=[0,1,...,0]T ,…, T(k1)=[0,0,...,1]T T(k)=[0,0,...,0]T

T(y)i=1{y==i}

P(y|x)=ϕ1{y=1}1ϕ1{y=2}2...ϕ1{y=k}k=ϕT(y)11ϕT(y)22...ϕ1k1i=1T(y)ik=exp{T(y)1logϕ1+T(y)1logϕ2]+...+[1k1i=1T(y)i]logϕk}=exp{[T(y)1,T(y)2],...,T(y)k1]T.[logϕ1ϕk,logϕ2ϕk,...,logϕk1ϕk]+logϕk}

η=[logϕ1ϕk,logϕ2ϕk,...,logϕk1ϕk]T,a=logϕk,b(y)=1.

ϕi=exp(ηi)1+ki=1exp(ηi)=exp(θTix)1+ki=1exp(θTix) .

hθ(x)=[ϕ1,ϕ2,...,ϕk]T .

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值