斯坦福机器学习: 网易公开课系列笔记(四)——牛顿法、广义线性模型

牛顿法

      给定一个函数,如何求得使f(x)=0的x?对于二次函数,可以直接套用求根公式,但是对于更一般的函数,并不一定有解析形式的解。

牛顿法

      为此,我们可以这样做:首先,初始化一个点X0,过f(X0)做函数切线,得到与X轴的交点X1,再过f(X1)做函数切线,得到与X轴的交点X2,以此类推,直至Xn–>X。我们得到X的更新公式:Xn+1=Xn-f(Xn)/f(Xn)
      我们又知道,要求解一个函数的极值就是对该函数求导,令导数f(x)=0。在我们的优化问题中,我们需要极大化对数似然函数l(Θ),求出令l(Θ)=0的Θ值,为此我们得到Θ的更新公式:Θn+1n-ln)/ln)(也可以这样想,我们将上述函数看成是l(Θ)的图像,l(Θ)=0时的Θ值,即是l(Θ)的极值点),这就是牛顿法的思想,以似然性最大化问题为例,格式化其运行流程:

牛顿法运行流程

      牛顿法作为一种优化算法,比梯度下降法拥有更快的收敛速度,拥有局部二阶收敛性,即在某一迭代中误差为0.01,则下一次迭代误差为0.0001,再下一次为0.00000001。但是,基本牛顿法初始点需要足够“靠近”极值点,否则,有可能导致算法不收敛。这样就引入了全局牛顿法(因为计算Hession矩阵的复杂度过高,又提出了拟牛顿法,这里不做介绍)。全局牛顿法是基于Armijo搜索的,这里只给出其一般化的执行流程:

全局牛顿法

广义线性模型(Generalized Linear Models)

指数分布族(exponential family)

      如果一个概率分布能够写成如下形式:

指数分布族

则属于指数分布族。我们之前提到的伯努利分布,高斯分布,包括指数分布、泊松分布,都是指数分布族的一员。这里以伯努利分布为例,改写成指数分布族的形式:

这里写图片描述

      对于决策函数属于指数分布族的模型,求解参数Θ的梯度下降法更新公式一致性的证明:

一般化的梯度下降法参数更新公式

GLMs

      GLMs满足假设:
            1)y|x;Θ~ExpFamily(η)
            2)我们试图寻找Θ,建立一个模型hΘ(x)=E[T(y)|x;Θ](大多数情况,这里的T(y)=y)
            3)参数Θ与x之间满足线性关系

      给定一个参数为ϕ的伯努利分布,可以得到:hΘ(x)=E[y|x;Θ]=P(y=1|x;Θ)=ϕ=1/(1+e)。其中g(η)=E[y;η]=1/(1+e)叫做正则响应函数,g-1(η)称为正则关联函数
      可以看到:逻辑斯蒂回归伯努利分布化简为指数分布形式自然得到的,同理,最小二乘法即由高斯分布化简后自然得到的。

      在前面的问题中,我们建立的分类模型都是二分类问题,即决策函数的输出y只能在{0,1}上取值。如果是多分类问题呢?即y∈{1,2,…,k},多项式分布(Multinomial Distribition)就可以用来解决此类问题,它也属于指数分布族,不同的是,它的T(y)≠y而是一个n维向量:

这里写图片描述

      至此,我们证明了多项式分布也是属于指数分布族的,这里给出多项式分布参数Θ的对数似然函数:

参数的似然函数

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值