基于牛顿算法下的steffensen加速法_CS229 机器学习有监督学习逻辑回归和牛顿法...

最新推荐文章于 2021-11-16 14:47:24 发布

weixin_39923599

最新推荐文章于 2021-11-16 14:47:24 发布

阅读量117

点赞数

文章标签：基于牛顿算法下的steffensen加速法

0 本文目录

1、分类问题
2、逻辑回归  
3、牛顿法
4、感知器学习方法

CS229 相关讲义：http://cs229.stanford.edu/notes2020fall/notes2020fall/cs229-notes1.pdf

1 分类问题

现在我们来讨论输出是离散值的分类问题。本节我们将专注于二元分类问题，即输出

只能取

和

两个值。

2 逻辑回归

如果将线性回归模型直接应用于分类问题，会产生取值不在

和

之间的问题，为了确保

，我们引入

逻辑回归模型的假设函数为：

其中

被称为

逻辑函数或 S 型函数，其图像如下：

可以看到，当

时

趋向于

，当

时

趋向于

，这保证了

的值域为

。

这里先给出一个关于 S 型函数求导的有用性质：

确定了模型之后，我们需要找到合适的

的值。这里采用之前使用的

最大似然法来选择参数（假设函数可以直接看作概率分布）。

首先，二元分类符合伯努利分布，我们假设：

重写上面的公式合二为一，得到：

假定

个样本之间相互独立，我们可以得到参数

的似然函数如下：

与之前类似，为了计算方便，我们最大化对数似然函数：

下面要做的是找到

使得

最大，由于这里是找最大值而非最小值，所以使用

梯度上升（gradient ascent），参数的更新规则是

，对于随机梯度上升（每次只考虑一个样本），求导过程如下：

综上所述，我们得到随机梯度上升的更新规则是：

3 牛顿法

另外一种算法来求解

的最大值，称为

牛顿方法。

3.1 牛顿法求解任意函数

假设有一个函数

，我们想找到

使得

。

上图解释了牛顿法的优化过程，我们可以把它理解成用一个线性函数来对函数

进行逼近

，这条 直线是

的切线

，而 猜测值是

，解的方法就是 找到线性方程等于零的点，把这一个零点作为

设置给下一次猜测

，然后 以此类推。因此牛顿方法的更新规则是：

这说明牛顿法优化速度非常快，而梯度下降，每次只是在梯度方向上下降一小步（取决于学习速率）。

3.2 牛顿法应用于

的优化

下面我们将牛顿方法应用于似然函数的优化，我们需要找到

的最大值，即

的点，因此令

，我们可以得到逻辑回归的牛顿方法更新公式：

而对于

为向量的情况，牛顿方法的多维形式如下（又被称为

牛顿-拉夫逊方法）：

其中

是

对于每个

求偏导数构成的向量。

是一个

的矩阵（包括截距项），称为

海森矩阵，其中的每一项定义为：

和（批量）梯度下降相比，牛顿方法会带来更快的收敛速度和更少的迭代次数。虽然每次迭代由于要计算

，导致计算量较大，但对于参数数量不是特别大的情况，总的来说它还是更快的。将牛顿方法用于求解逻辑回归的对数似然函数最大值，也被称为

Fisher 评分。

牛顿法通常都能比（批量）梯度下降法收敛得更快，而且达到最小值所需要的迭代次数也低很多。然而，牛顿法中的单次迭代往往要比梯度下降法的单步耗费更多的性能开销，因为要查找和求逆得到一个

的海森矩阵（即，

），导致计算量较大；不过只要这个nn不是太大，牛顿法通常就还是更快一些。

将牛顿方法用于求解逻辑回归的对数似然函数

最大值，也被称为

Fisher评分。

4 感知器学习算法

19世纪60年代，感知器被看作是大脑工作中独立神经元的粗糙的模型，但其实人脑的运作比这个算法要复杂的多。

修改一下逻辑回归方法，“强迫”它输出的值要么是

要么是

。要实现这个目的，很自然就应该把函数

的定义修改一下，改成一个

阈值函数，由此得到其假设函数为：

然后，使用如下参数更新规则：

这便是一个完整的感知器算法。

虽然感知器算法很优秀，但是很难对感知器算法赋予有意义的概率解释，也很难使用最大似然估计算法来推出感知器学习算法。

参考

CS229 课程讲义：CS229: Machine Learning

CS229 讲义中文翻译：https://kivy-cn.github.io/Stanford-CS-229-CN/#/README

口仆的学习笔记中 CS229 部分：口仆的学习笔记