【CS229机器学习】 Lecture4：牛顿法，广义线性模型，指数族分布，Softmax回归

最新推荐文章于 2021-01-08 18:30:11 发布

クロネコ黒猫

最新推荐文章于 2021-01-08 18:30:11 发布

阅读量368

点赞数

分类专栏： MachineLearning CS229 文章标签： cs229

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cyr429/article/details/102624860

版权

本文详细讲解了机器学习课程CS229中的牛顿法、广义线性模型和指数族分布。讨论了如何利用牛顿法求解最大值，介绍了逻辑回归、Softmax回归的数学原理，并探讨了感知机算法。内容涵盖了从线性回归到多项式分布的广义线性模型构建。

摘要由CSDN通过智能技术生成

接上次：https://blog.csdn.net/cyr429/article/details/102458430

最近开组会耽误了一些进度。

6.题外话：感知机算法

这一部分在公开的课程视频中并没有讲到，我只能按我的理解来说了。

如果我们强迫逻辑回归的输出为0或1，会“自然而然”地使用阈值函数代替原来的g(z)：

如果我们再结合前面使用过的，我们会得到一个新的参数更新规则：

这就是感知机算法。

这是上世纪的算法了，是学习类算法的起点之一。值得注意的是虽然它与之前我们讨论的算法大致相似，与线性回归和逻辑回归相比它其实是一种完全不一样的算法。事实上，这个算法并没有概率论上的解释。

7.最大化l(theta)的另一种算法

回到逻辑回归算法，我们使用sigmoid函数作为g(z)，现在我们讨论另一个可以使得 $\l (\theta )$ 最大的算法。

开始之前我们先考虑牛顿法解方程的原理，即在求使得f(theta)=0成立的theta的值时使用如下更新规则：

下图是应用此方法的求解过程的图像：

其实这个算法很简单这里就不赘述了。

既然有了牛顿法找0点，如果我们想找到使得函数最大的点呢，很自然的我们会找使得其导数为0的点，所以与牛顿找0点相似，有以下的更新规则：

（思考：如果我们想找最小值而不是最大值这个式子怎么改变呢？）

最后，在逻辑回归中，我们的theta是向量，所以我们需要归纳牛顿法到逻辑回归中。这个多维化的牛顿法的更新规则是：

这里的是l(theta)对theta i求偏导数所组成的向量，H则是一个d*d的矩阵叫做黑塞矩阵，定义为：

牛顿法通常比梯度下降更快收敛，并且需要更少的循环计算来到达目标值。但是一次循环中牛顿法的计算量要比梯度下降大，因为它要计算黑塞矩阵并且翻转它，不过如果d不是很大的话它还是更快一些。

Par

最低0.47元/天解锁文章

クロネコ黒猫

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。