感知机模型(原始形式和对偶形式)

最新推荐文章于 2024-04-21 20:42:08 发布

Jaster_wisdom

最新推荐文章于 2024-04-21 20:42:08 发布

阅读量1.2w

点赞数 2

分类专栏：算法设计机器学习文章标签：机器学习感知机

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jaster_wisdom/article/details/78240949

版权

算法设计同时被 2 个专栏收录

116 篇文章 2 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

本篇博客主要介绍机器学习中十分基础的感知机模型。感知机模型是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别。我们写出基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。

1.首先，我们假定线性方程 wx+b=0 是一个超平面，令 g(x)=wx+b，也就是超平面上的点x都满足g(x)=0。对于超平面的一侧的点满足：g(x)>0; 同样的，对于超平面另一侧的点满足：g(x)<0.

结论一：对于不在超平面上的点x，它到超平面的距离：

证明：如下图所示，O表示原点，Xp表示超平面上的一点，X是超平面外的一点，w是超平面的法向量。

等式1说明：向量的基本运算法则，OX＝OXp+XpX. 因为w是法向量，所以w/||w||是垂直于超平面的单位向量。

等式2说明：将等式1带入g(x)=wx+b；由于Xp在超平面上，所以g(Xp)=w^T*Xp+w0 = 0

以上得证。

2.下面区分一下易混淆的两个概念，梯度下降和随机梯度下降：

梯度下降：一次将误分类集合中所有误分类点的梯度下降；

随机梯度下降：随机选取一个误分类点使其梯度下降。

3.对于误分类的数据来说，当w*xi + b>0时，yi = -1,也就是，明明是正例，预测成负例。因此，误分类点到超平面的距离为：

因此所有误分类点到超平面的总距离为:

忽略1/||w||,我们就可以得到感知机学习的损失函数。

损失函数：

这个损失函数就是感知机学习的经验风险函数。

下面我们计算损失函数的梯度：

值得我们注意的是，以上求和都是针对误分类集合M中的样本点进行的。对于正确分类的样本点，则不需要考虑。

下面我们就得到了我们的更新策略：

随机选取误分类点(xi,yi),对w,b进行更新：

4.感知器算法的原始形式：

输出w,b; 感知机模型f(x)=sign(w*x+b)

(1)选取初值w0,b0

(2)在训练集中选取数据(xi,yi)

(3)若yi*(w*xi+b)<=0, （该样本点被误分类了）

(4)转至(2)，直至训练集中没有误分类点。

对于感知器算法，还有一种对偶形式，其基本想法是将w,b表示为实例xi,和标记yi的线性组合的形式，通过求解其系数而求得w,b

将Ni表示为样本点(xi,yi)在更新过程中使用的次数，我们可以得到以下式子：

这样的话，我们可以看出对偶形式本质上是学习Ni,而非w与b,即学习每个样本在更新过程中使用的次数。

我们可以假设：

对偶形式的一般性描述：

输出Ni,b; 感知机模型为：

(1)Ni = 0

(2)在训练集中选取数据(xi,yi)

(3)若

则更新：

(4)转至(2)直到没有误分类的数据

为了方便后期的计算，可先求出Gram矩阵。

例如，正例：x1 = (3,3)^T, x2 = (4,3)^T, 负例： x3 = (1,1)^T

那么Gram矩阵就是：

因为对偶形式中会大量用到xi*xj的值，所以提前求出Gram矩阵会方便很多。

关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
2
评论
感知机模型(原始形式和对偶形式)

本篇博客主要介绍机器学习中十分基础的感知机模型。感知机模型是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别。我们写出基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。 1.首先，我们假定线性方程 wx+b=0 是一个超平面，令 g(x)=wx+b，也就是超平面上的点x都满足g(x)=0。对于超平面的一侧的点满足：g(x)>0; 同样的，对于
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。