机器学习笔记【二】逻辑回归与分类(2)：感知机学习算法与逻辑回归的区别,牛顿方法

最新推荐文章于 2024-03-11 13:42:54 发布

不会算命的赵半仙

最新推荐文章于 2024-03-11 13:42:54 发布

阅读量2k

点赞数 1

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

22 篇文章 2 订阅

订阅专栏

本节为吴恩达教授机器学习笔记第二部分:逻辑回归与分类(2)-感知机学习算法与逻辑回归的区别,牛顿方法。

2. 感知机学习算法与逻辑回归的区别

区别1：这两位都是线性分类器，但是逻辑回归使用对数损失函数，而感知机使用的是均方损失函数(即错误点到分离平面的距离，最小化该值)。
区别2：逻辑回归的激活函数也与感知机不同，前者是sigmoid函数，后者是一个阶跃函数：
在这里插入图片描述
这就导致逻辑回归连续可导，使得最终结果有了概率解释的能力。而阶跃函数是一个分段函数非0即1，分类粗糙。
那问题又来了，针对第一个区别，为什么逻辑回归不能用均方损失左损失函数呢？
我们设想可以，则优化的目标函数为：
在这里插入图片描述
这个目标函数是非凸的，不容易求解，会得到局部最优。而用极大似然，对数似然函数是高阶连续可导凸函数，方便用梯度下降或者牛顿方法等凸优化方法来进行优化。
此外，综合线性回归，逻辑回归和感知机学习。

感知机算法仅在线性可分条件下有效，非线性则需要pocket算法
线性回归容易优化，在0/1错误下对于|ys|有比较宽松的VC维界
逻辑回归同样容易优化，在0/1错误下对于 $y s < < 0$ 有比较宽松的VC维界
这里问题又来了，啥是VC维界，详细可以这篇文章解读机器学习基础概念：VC维的来龙去脉，简单来说就是VC维反映了假设空间的强大程度。VC维越大，H越强，即可以打散更多的点。

3. 牛顿方法

该节介绍了另一种最大化对数似然函数的方法，牛顿方法，它本质上是近似求解方程根的方法，对参数的更新规则如下，找到某个 $\theta$ 使得 $f(\theta)=0$ ，
在这里插入图片描述
如果要最大化目标函数，可以令:

即最大值时一阶导数为0，得到新的参数更新规则：

因为逻辑回归中的参数 $\theta$ 时向量，所以进一步对牛顿方法进行推广到多维，得到牛顿-拉夫森方法：
在这里插入图片描述

其中， $\nabla_{\theta}l(\theta)$ 表示偏导， $H$ 是 $\times n$ 矩阵，称为Hessian矩阵：
在这里插入图片描述

牛顿方法收敛速度优于梯度下降，但是需要计算的Hessian矩阵，所以只要 $n$ 的值比较小，牛顿方法就更好。使用牛顿方法最大化对数似然函数的方法也称为Fisher scoring。

欢迎扫描二维码关注微信公众号深度学习与数学 [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读，算法和其他互联网技能的学习，概率论、线性代数等高等数学知识的回顾]
在这里插入图片描述

不会算命的赵半仙

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记【二】逻辑回归与分类(2)：感知机学习算法与逻辑回归的区别,牛顿方法

本节为吴恩达教授机器学习笔记第二部分:逻辑回归与分类(2)-感知机学习算法与逻辑回归的区别,牛顿方法。2. 感知机学习算法与逻辑回归的区别区别1：这两位都是线性分类器，但是逻辑回归使用对数损失函数，而感知机使用的是均方损失函数(即错误点到分离平面的距离，最小化该值)。区别2：逻辑回归的激活函数也与感知机不同，前者是sigmoid函数，后者是一个阶跃函数：这就导致逻辑回归连续可导，使得最终结果有了概率解释的能力。而阶跃函数是一个分段函数非0即1，分类粗糙。那问题又来了，针对第一.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。