统计学习方法——感知机

最新推荐文章于 2024-09-04 09:32:34 发布

凉风慕有信

最新推荐文章于 2024-09-04 09:32:34 发布

阅读量451

点赞数 1

分类专栏：读书笔记文章标签：读书笔记

本文链接：https://blog.csdn.net/sinat_36118365/article/details/101283433

版权

读书笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

思维导图

在这里插入图片描述

感知机学习

一、感知机的结构

1、是什么？

感知机是一种二类分类的线性分类模型，输入为实例的特征向量，输出为实例的类别（取+1和-1二值）。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。

2、目的：

旨在求出将训练数据进行线性划分的分离超平面

3、模型结构：

在这里插入图片描述
其中w 叫做权值（weight）或权值向量（weight vector），b 叫做偏置（bias），sign 是符号函数，即：

在这里插入图片描述
对于模型，可以借助几何空间去理解。分割超平面为：w·x + b = 0

二、感知机的算法学习

1、损失函数

目的：为了使感知机求得一个能够将训练正实例点和负实例点完全正确分开的分离超平面。即确定感知机模型参数w，b。普遍来说，损失函数是采用误分类点的总数。但是这样的函数时离散的，不是参数w和b的可导函数，不易优化。所以这里采用了另一种选择：误分类点到超平面S的总距离。

（1）误分类点到超平面S的总距离：
在这里插入图片描述
这里的 ||w|| 是 w 的 L2范数

（2）如果把绝对值去掉，对于任意一个误分类点（xi，yi）来说：
在这里插入图片描述
（3）因此，误分类的点xi到超平面的距离可以写作：

（4）假设超平面S的误分类点集合为M，那么所有误分类点到超平面S的总距离为：

不考虑1/||w|| ，就得到感知机学习的损失函数：

其中M为误分类点的集合。这个损失函数就是感知机学习的经验风险函数。

这里可以看到，损失函数L(w,b)是非负的。如果没有误分类点，那么L(w,b)为0，误分类点数越少，L(w,b)值越小。一个特定的损失函数：在误分类时是参数w,b的线性函数，在正确分类时，是0。

2、感知机学习算法

感知机学习问题就是求解损失函数的最优化问题。其中，这里最优化的方法是随机梯度下降法。
损失函数L(w,b)的梯度为：
在这里插入图片描述
随机选出一个样本点（xi，yi），对参数w，b进行更新：

其中 η（0≤η≤1）是步长，也就是学习速率。步长越大，梯度下降的速度越快，更能接近极小点。如果步长过大，有可能导致跨过极小点，导致函数发散；如果步长过小，有可能会耗很长时间才能达到极小点，且有可能会局部最优。

（1）原始形式

具体算法过程是：

输入训练集 T，学习率 η （0≤η≤1）。输出 w,b 和感知机模型 f(x)=sign(w⋅x+b) 。
（1）选出初始值w0，b0;
（2）在训练集中选取数据（xi,yi）
（3）如果 yi(w⋅xi+b) ≤ 0 ，则执行：
在这里插入图片描述
（4）转至（2），直到训练集中没有误分类点。

上面的过程可以看作是：当一个实例点被误分类，即位于超平面的错误一侧时，则调整w，b的值，使超平面向误分类点的一侧移动，以减少误分类点与超平面的距离。

（2）对偶形式

对偶形式的基本想法是，将w和b表示实例 xi 和标记 yi 的线性组合的形式，通过求解其系数而球的 w 和 b。
假设：在这里插入图片描述
当中的w0 = 0，b = 0 , 当所有的点均不发生误判时，最后的w，b一定是变成如下形式：

其中αi=niη 中ni代表对第i个样本的学习次数，感知机 对偶形式 完整式子如下：

具体算法过程是：
输入训练集 T，学习率 η （0≤η≤1）。输出 a，b 和感知机模型 f(x)=sign(∑j=1Nαjyjxj⋅xi+b)
（1）初始化α=0,b=0.
（2）任意选取(xi,yi)
（3）如果yi(∑j=1Nαjyjxj⋅xi+b)≤0 ，发生误判，则对αi,b进行更新：
在这里插入图片描述
（4）重复2知道所有点被正确分类

感知机的***对偶形式就是把对w，b的学习变成了对a，b的学习***，在原始形式种，w在每一轮迭代错分时都需要更新，而采用对偶形式时，对于某一点（xi，yi）发生错分时，我们只需要更新对应的αi即可，最后逆推计算出w

（转载）第二章的课后习题
2.1-2.2 https://blog.csdn.net/cracker180/article/details/78778305
2.3 https://blog.csdn.net/xiaoxiao_wen/article/details/54097835
感知机，线性可分和线性不可分的相关讨论，https://blog.csdn.net/taoyanqi8932/article/details/53955430