最大化似然性的另一算法
我们回到逻辑回归的话题( g(z)为S型函数 ),现在我们讨论另一种最大化 l(θ) 的算法。
在开始前,让我们思考用于寻找函数零值的牛顿方法。假设,有一函数 f:R→R ,希望找到 θ 值使得 f(θ)=0 。此处的 θ 是实数。
牛顿方法以如下形式更新:
牛顿方法的原理可以这样解释:在某点 θ 处作与函数 f 无限靠近的线性函数,且这一线性函数是在点
下面是牛顿方法的原理解释:
在最左侧的图中,我们可以看到函数 f 随着直线
牛顿方法为我们提供了一种寻找 f(θ)=0 的方式。那么如果我们想利用它来最大化一些函数 l 呢?
(思考:如果我们想用牛顿方法最小化函数,那么这个公式会怎么变化呢?)
在上一讲的逻辑回归问题中,
此处, ▽θl(θ) 表示为 l(θ) 针对 θ′is 的部分偏导的向量。 H 是n*n维的矩阵,被称作海赛矩阵,矩阵中的值如下:
牛顿方法的收敛速度通常比梯度下降方法更快,达到最小值的迭代次数也更少。但是,牛顿方法每迭代一次的代价要高于梯度下降过程中的迭代,因为牛顿方法需要遍历且倒置n*n维的海赛矩阵;但是如果n值不是很大,总体来说牛顿方法还是更快一些。当利用牛顿方法最大化逻辑回归的对数似然函数
广义线性模型
目前为止,我们对回归问题和分类问题都有所了解了,在回归问题中,有 y|x;θ~N(μ,σ2) ,在分类问题中,有 y|x;θ~Bernoulli(ϕ) ,对 μ 和 ϕ 的适当定义得到了关于 x