Andrew NG 机器学习课程笔记(四)

牛顿法以及广义线性模型

 

 

 

1.牛顿法

 

之前使用的解最大似然估计的方法是梯度上升法,本节课讲了牛顿法,这使得结果能够迅速收敛

NG老师上来从求解f(theta)=0这个方程开始讲起,如果想找到零点,我们可以采取下面的策略:


 

如上图所示,蓝色的曲线是f(theta),横坐标是theta,纵坐标是f(theta)1这个点处对应的Xtheta的初值(自己赋的),在这个点出做曲线的切线,与X轴交于2这个点,然后2对应的f(theta)就是3,重复这个过程,直到f(theta)=0.

这本身是个迭代的过程,数学表达式为:


当然,前提得是可导。

当应用到之前求解最大化似然函数的时候,就变成:


因为这时要求l(theta)的导数为0.

以上是当theta为一维的时候,当theta为一个向量的时候二阶导数就涉及到汉森矩阵了,一阶就是梯度。如下所示:


 


牛顿法相对于梯度下降,收敛为平方收敛,梯度下降为线性收敛,速度更快,但由于每次迭代都需要计算汉森矩阵,导致运算量很大。对大数据不合适。

 

 

 

2.广义线性模型

 

之前所讲的线性回归和逻辑回归,都是广义线性模型的一种,现在我们从广义线性模型出发可以解释线性回归模型和逻辑回归模型的概率意义。

首先介绍一个指数分布簇:

若某个随机变量Y的概率分布可以写成如下形式


其中η是影响Y的参数,大多数分布中它是一个实数,某些分布中可能是一个向量。这里的Ty)是变量Y的充分统计量。上述的概率分布形式称作指数分布族形式。广义线性模型基于的假设也是从指数分布族开始。

广义线性模型基于如下三个假设:

1P(y|x;θ) ~Expfamily(η)。在我们的样本特征X,参数为θ的条件下,我们的预测值Y的概率分布可以写成指数分布族的形式。

2)对于输入的X,我们总是需要输出一个预测值Y。在广义线性模型中,预测函数Y=hθ(x)=E[T(y)|x]

3)自然参数ηθx的关系:广义线性模型中我们假设η=θTX。在大部分情况下,η是一个实数。在少数概率分布情况中,η是一个向量,那么ηi =θiX

从第三个假设可以看出,广义线性模型的核心假设是自变量X是通过线性组合的方式影响因变量的,因此基于这种假设才被称为广义线性模型。前面说到线性回归、逻辑回归都是广义线性模型的特例。

 

 

针对于线性回归,推导如下:


 


 

 

 

针对逻辑回归:


于是,之前的疑问都解释清楚了!

 

最后,叙述一下逻辑回归的一个扩展,就是softmax回归:

这里就是把两类问题扩展到了多类问题,之前只有一个fai,现在扩展到了k-1个(K类),最后一个可以用1减去其他的,也就是参数变成了K-1个然后Ty)是个k-1维的向量了,不再是y了。其他跟前面一样,继续根据假设二得到预测函数,根据假设三得到最大似然估计,进而求得fai

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大兔齐齐

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值