关闭

斯坦福公开课Machine Learning笔记(三)--Generalized Linear Models

标签: 机器学习
110人阅读 评论(0) 收藏 举报
分类:

斯坦福公开课Machine Learning笔记(三)–Generalized Linear Models

这系列笔记其实已经手写好, 现在一次性发上来, 主要是怕丢. 内容以Andrew Ng的讲义为主,主要以公式推导与理解为主,引入和介绍省略.对于最后的Reinforcement Learning部分, 由于没有讲义以及对其实在不熟悉, 就没有笔记了(主要还是因为没有讲义).

之前的线性回归和LR其实都可以推广到广义线性模型上。

1. The exponential family

Ng 给出了一个指数分布簇的定义:

P(y;η)=b(y)exp(ηTT(y)a(η))

其中η 为自然参数。T(y) 是sufficient statistic,一般为T(y)=y.a(η) 为log partition函数。这样,由T,a,b 可以确定分布,而η 可以改变T,a,b
以伯努利分布为例:
P(y=1;ϕ)=ϕ

P(y=0;ϕ)=1ϕ


P(y;ϕ)=ϕy(1ϕ)1y=exp(ylogϕ+(1y)log(1ϕ))=exp(log(1ϕ)+ylogϕ1ϕ)

η=logϕ1ϕ,ϕ=11+eη (与sigmoid函数相似)

T(y)=y

a(η)=log(1ϕ)=log(1+eη)

b(y)=1

伯努利分布可以写成GLM的形式,是其中一员.

再以高斯分布为例:
在推导线性回归是,σθ,这里设σ2=1

P(y;μ)=12πexp(12(yμ)2)=12πexp(12y2)exp(μy12μ2)

η=μ

T(y)=y

a(η)=12μ2=12η2

b(y)=exp(12y2)12π

2.Constructing GLMs

要使用GLMs来解决分类和回归问题,要满足以下三个假设:
1. y|x;θ ~ ExponentialFamily(η)
2. 满足hθ(x)=E[y|x]
3. η=θTx (满足线性关系)

2.1 Ordinary least squares

这里还是以高斯分布为例(其实线性回归就是服从高斯分布):
根据之前可得:

hθ(x)=E[y|x;θ]=ϕ=η=θTx

2.2 Logistic regression

当遇到多分类问题时: y{1,2,...,k}
为了让多项分布属于指数分布簇, 定义:
T(1)=100,T(2)=010,...,T(k1)=001,T(k)=000,T(y)Rk1
Ng先定义:

1{True}=1,1{False}=0

E[(T(y))i]=P(y=i)=ϕi

P(y;ϕ)=ϕ1{y=1}1ϕ1{y=2}2...ϕ1{y=k}k=ϕ1{y=1}1ϕ1{y=2}2...ϕ1k1i=11{y=i}k=ϕ(T(y)11ϕ(T(y))22...ϕ1k1i=1(T(y))ik=exp((T(y))1logϕ1+(T(y))2logϕ2+...+(1i=1k1(T(y))i)logϕk)=exp((T(y))1logϕ1ϕk+(T(y))2logϕ2ϕk+...+(T(y))k1logϕk1ϕk+logϕk)=b(y)exp(ηTT(y)a(η))

η=logϕ1ϕklogϕ2ϕklogϕk1ϕk
a(η)=logϕk

b(y)=1

ηi=logϕiϕk

定义:ηk=logϕkϕk=0

eηi=ϕiϕk

ϕkeηi=ϕi(*)

ϕkki=1eηi=ki=1ϕi=1

ϕk=1ki=1eηi

代回(*)

ϕi=eηikj=1eηj

θk=0,ηk=θTkx=0

P(y=i|x;θ)=ϕi=eηikj=1eηj=eθTixkj=1eθTjx

hθ(x)=E[T(y)|x;θ]=E1{y=1}1{y=2}1{y=k1}x;θ=ϕ1ϕ2ϕk1=eη1kj=1eηjeη2kj=1eηjeηk1kj=1eηj

其中hθ 只能输出k-1种概率,第k种概率可用(1k1i=1ϕi)计算.

1
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:3520次
    • 积分:182
    • 等级:
    • 排名:千里之外
    • 原创:15篇
    • 转载:0篇
    • 译文:0篇
    • 评论:1条
    文章分类
    文章存档
    最新评论