0 本文目录
1、分类问题
2、逻辑回归
3、牛顿法
4、感知器学习方法
CS229 相关讲义:http://cs229.stanford.edu/notes2020fall/notes2020fall/cs229-notes1.pdf
1 分类问题
现在我们来讨论输出是离散值的分类问题。本节我们将专注于二元分类问题,即输出
2 逻辑回归
如果将线性回归模型直接应用于分类问题,会产生取值不在
其中
可以看到,当
这里先给出一个关于 S 型函数求导的有用性质:
确定了模型之后,我们需要找到合适的
首先,二元分类符合伯努利分布,我们假设:
重写上面的公式合二为一,得到:
假定
与之前类似,为了计算方便,我们最大化对数似然函数:
下面要做的是找到
综上所述,我们得到随机梯度上升的更新规则是:
3 牛顿法
另外一种算法来求解
3.1 牛顿法求解任意函数
假设有一个函数
上图解释了牛顿法的优化过程,我们可以把它理解成用一个线性函数来对函数
这说明牛顿法优化速度非常快,而梯度下降,每次只是在梯度方向上下降一小步(取决于学习速率)。
3.2 牛顿法应用于
下面我们将牛顿方法应用于似然函数的优化,我们需要找到
而对于
其中
和(批量)梯度下降相比,牛顿方法会带来更快的收敛速度和更少的迭代次数。虽然每次迭代由于要计算
牛顿法通常都能比(批量)梯度下降法收敛得更快,而且达到最小值所需要的迭代次数也低很多。然而,牛顿法中的单次迭代往往要比梯度下降法的单步耗费更多的性能开销,因为要查找和求逆得到一个
将牛顿方法用于求解逻辑回归的对数似然函数
4 感知器学习算法
19世纪60年代,感知器被看作是大脑工作中独立神经元的粗糙的模型,但其实人脑的运作比这个算法要复杂的多。
修改一下逻辑回归方法,“强迫”它输出的值要么是
然后,使用如下参数更新规则:
这便是一个完整的感知器算法。
虽然感知器算法很优秀,但是很难对感知器算法赋予有意义的概率解释,也很难使用最大似然估计算法来推出感知器学习算法。
参考
CS229 课程讲义:CS229: Machine Learning
CS229 讲义中文翻译:https://kivy-cn.github.io/Stanford-CS-229-CN/#/README
口仆的学习笔记中 CS229 部分:口仆的学习笔记