牛顿方法
做似然函数最大(小)化: 一般过程都是,求出一个似然函数,求导使导数等于零,然后导数为零处就是极值,使导数等于零的这一步就可以用牛顿方法来做,
θ:=θ−l′(θ)l′′(θ)
由于
θ
是矢量,引入hessian矩阵H
θ:=θ−H−1∇θl(θ)
Hij=∂2l(θ)∂θiθj
牛顿方法就是这样一个参数更新过程,取正切,即导数的数学意义,延长切线与水平轴相交于一点,这点就是新参数取值,直到为零。
牛顿方法是二次收敛,收敛速度在数据集不大的情况下远大于前面求导数等于零的速度,其主要计算量在于hessian矩阵求逆这一步。有一定的应用。
指数分布簇
大一统的时候到了,有没有人对此倍感兴奋!!!
首先指数分布簇的形式,
p(y;η)=b(y)exp(ηTT(y)−a(η))
η :natural parameter(or canonical parameter);
T(y) :sufficient statistic
a(η) :log partition function
选定不同的T,a,b可以得到由参数控制的特定分布,比如伯努利分布
p(y;ϕ)=exp((log(ϕ1−ϕ)y+log(1−ϕ))
和高斯分布
p(y;u)=1(2π)−−−−√exp(−12y2)exp(μy−12μ2)
,推导过程很简单,就跟解多元一次方程似的。需要指出的是多项式分布,泊松分布(常用于对计数情况的建模),gamma和指数分布(连续变量的,非负随机变量,比如预计车到达时间),beta分布以及dirichlet分布(对小数建模,尤其是基于概率的分布),wishart分布(协方差矩阵分布)都属于这个指数分布簇!
构建Generalized Linear Models
三个假设:1)符合指数分布簇;2)由给定的x预测T(y),T(y)一般情况下等于y,通过学习假设来预测h(x)输出;2)自然参数和输入变量线性相关 ηi=θTix
回顾最小二乘,逻辑回归,都满足这个模型。
softmax regression
分类问题如果不是二分类而是多分类呢?这需要使用多项式分布,假设有k类,则令k个参数为\phi,去除相关性,只考虑其中k-1个参数(因为要满足概率之和等于1,\phi值等于y取k时的概率值)定义指示函数(1{true}=1,1{false}=0),并使
(T(y))i=1{y=1}
,二项式分布化为指数簇得:
p(y;ϕ)=∏i=1k−1ϕ(T(y))ii∗ϕ1−∑k−1i=1(T(y))ik
η=log(ϕiϕk),a(η)=−log(ϕk),b(y)=1,ϕi=eηi∑kj=1eηj=p(y=i|x;θ) 假设
hθ(x)=[θi],列向量
似然函数
l(θ)=∑mi=1logp(y(i)|x(i);θ)