《统计学习方法》：第二章：感知机

最新推荐文章于 2023-06-27 16:21:23 发布

菜小白—NLP

最新推荐文章于 2023-06-27 16:21:23 发布

阅读量305

点赞数 1

本文链接：https://blog.csdn.net/ACM_hades/article/details/89496175

版权

该章结构

一、感知机模型：
二、感知机的学习策略：
三、感知机的学习算法：

一、感知机模型：

感知机:是二分类的线性分类模型，输入为：实例的特征向量，输出：实例类别(-1和+1)。
感知机旨在：学习一个分离超平面，将训练数据进行线性划分。

1、感知机定义

假设：输入空间为 $X∈R^n$ ，输出空间为 $Y∈\{-1,+1\}$ ，输入实例的特征向量为： $x \in X$ 它对应于输人空间的一个点。输入空间到输出空间的映射函数：
$f (x) = s i g n (w * x + b)$ 被称为感知机；其中 $w$ 和 $b$ 是感知机模型的参数。 $*$ 是矩阵乘法（内积运算）。 $s i g n$ 是符号函数：
$\begin{cases} +1 & x≥0 \\ -1 & x<0 \end{cases}$
感知觉是一个线性分类模型。属于判别模型。其假设空间是定义在特征空间的所有线性分类模型：即函数集合 ${f(x)=w*x+b\}$ 。

2、几何解释

感知机中的线性方程： $w * x + b = 0$ ，表示的是输入空间的一个超平面 $S$ ， $w$ 为该超平面的法向量， $b$ 为法向量的截距。这个超平面将假设空间分为两部分，按照法向量的方向是分为上部分和下部分。严格的来说是三部分：平面上部空间，平面上和平面下部空间。平面上部空间的样本点代入 $w * x + b > 0$ , 平面上的样本点： $w * x + b = 0$ ，平面下部空间样本点代入 $w * x + b < 0$ 。这样我们根据函数值就可以将样本分类。
输入空间为平面时，分离超平面就是一条直线，如下图：

二、感知机的学习策略：

1、数据集的线性可分性：

给定数据集： $T={(x_1,y_1 ),(x_2,y_2 ),…,(x_N,y_N)}$ ,其中 $x_i∈X=R^n,y_i∈\{+1,-1\}，i=1,2,…N$ 。如果存在超平面 $S$ ： $w * x + b = 0$ ，能将训练集的正例和负例完全正确的分离到超平面的两侧，则称数据集 $T$ 是线性可分的。

2、感知机的学习策略：

假设训练数据集线性可分，则感知觉的目标就是学习到一个分离超平面，要确定一个分离超平面，只需确定其中的 $w$ 和 $b$ 就可以了。
为了得到我们想要的分离超平面，我们需要一个学习策略，即定义一个损失函数并将其最小化。
一个很自然的损失函数就是误分类点的总数，但是这样的损失函数不是学习参数 $w$ 和 $b$ 的可导函数，不易优化。
感知机采样的损失函数是：误分类点到超平面的总距离。样本点 $x_0$ 到超平面 $S$ 的距离为： $\frac{1}{||w||}|w*x_0+b|$
不考虑 $\frac{1}{||w||}$ ，故感知觉的损失函数为： $y_i (w*x_i+b)$
总结：给定训练集： $T={(x_1,y_1 ),(x_2,y_2 ),…,(x_N,y_N)}$ ,其中 $x_i∈X=R^n,y_i∈{+1,-1}，i=1,2,…N$ .感知机的损失函数为： $L(w,b)=-∑_{x_i∈M}y_i (w*x_i+b)$ 其中 $M$ 为误分类的样本集合，即满足 $y_i (w*x_i+b)≤0$ 的样本集合。
注意：对于不考虑 $\frac{1}{||w||}$ 的原因，书上没有讲，网上版本比较多，我比较认同的一个解释是：
- 感知机的任务是进行二分类工作，它的最终目的是找到一个分离超平面，不是找到最优的那个分离超平面，所以它并不关心得到的超平面离各点的距离是多少，只是关心我最后是否已经正确分类样本，比如说下面红色与绿线，对于感知机来说，效果任务是一样好的：
- 所以我们可以不考虑 $w$ 的范式，直接去掉它，因为这个时候我们只考虑误分类点，当一个误分类点出现的时候，我们进行梯度下降，对 $w ， b$ 进行改变即可！跟距离没有什么关系了，因为 $w$ 的范式始终是大于0，对于我们判断是否为误分类点没有影响！这也回到了我们最初始那个最直观的损失函数：误分类点的个数。引入距离，只是将它变成一个可导的形式！
感知机的学习策略是：在假设空间中选取损失函数最小的模型。

三、感知机的学习算法：

感知机的学习问题转化为求解损失函数的最优化问题，最优化方法是随机梯度下降法。

1、感知机学习算法的原始形式：

给定训练集： $T={(x_1,y_1 ),(x_2,y_2 ),…,(x_N,y_N)}$ ,其中 $x_i∈X=R^n,y_i∈\{+1,-1\}，i=1,2,…N$ .求参数 $w, b$ 。使其以下损失函数(目标函数)极小化问题的解：
$min_{w,b}⁡L(w,b)=-∑_{x_i∈M}y_i (w*x_i+b)$ 其中 $M$ 为误分类的样本集合。
感知机学习算法为随机梯度下降算法，步骤如下：
- 第一步：任选超平面 $w_0,b_0$ 。
- 第二步：从训练集任选一个样本 $x_i,y_i)$ .
- 第三步：如果 $y_i (w*x_i+b)≤0$ ，使用梯度下降法不断极小化上面目标函数。
  - 极小化过程不是一次性使用 $M$ 中所有误分类点的梯度下降，而是每次随机选取一个误分类点使其梯度下降。
  - 假设集合 $M$ 是固定的，损失函数(目标函数) $L (w, b)$ 的梯度为：
    $_w L(w,b)=-∑_{x_i∈M}y_i x_i$ $_b L(w,b)=-∑_{x_i∈M}y_i$
  - 上面的是损失函数(目标函数)对整个误分类集合 $M$ 的梯度，我们使用的是损失函数(目标函数)对某个误分类点 $x_i,y_i)$ 的梯度：
    $_w L(w,b)=-y_i x_i$ $_b L(w,b)=-y_i$
  - 所有随机选取一个误分类点(x_i,y_i)，对w和b的更新公式如下：
    $w←w-η∇_w L(w,b)=w+ηy_i x_i$ $b←b-η∇_b L(w,b)=w+ηy_i$
    其中η为步长
- 第三步：重复第二、三两步直到训练集上没有错误样本点.
该算法的直观解释：
- 当一个样本点被误分类时，即位于分离超平面的错误一侧，我们调整 $w$ 和 $b$ 的值，使分离超平面向误分类点的一侧移动，以减少误分类点到分类超平面的距离，直至分离超平面越过误分类点使其被正确分类。

2、感知机学习算法的对偶形式：

对偶形式的基本想法：将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式，通过求解出线性组合的系数从而得到 $w$ 和 $b$ 。
在上面的感知机学习算法的原始形式中，如果我们初始化 $w_0=b_0=0$ 。那么最后得到的 $w$ 和 $b$ 可以表示为：
$w=∑_{i=1}^N α_i y_i x_i$ $b=∑_{i=1}^N α_i y_i$ 其中 $α_i≥0$ 为整个训练过程样本 $x_i,y_i)$ 的总步长。这样我们的感知机就可以表示为： $f(x)=sign(∑_{i=1}^N α_i y_i x_i *x+∑_{i=1}^N α_i y_i )$
算法步骤： $α=(α_1,α_2,…,α_N)$
- 第一步：初始化： $α = 0$ ，
- 第二步：从训练集中选取一个样本 $x_i,y_i)$
- 第三步：如果 $y_i (∑_{j=1}^Nα_j y_j x_j *x_i+∑_{i=1}^Nα_i y_i )≤0:$ $α_i←α_i+η$
- 第四步:重复第二/三步，直到没有误分类点。
注意：书中的算法过程使用 $b$ 来代替 $_{i=1}^Nα_i y_i$ ，但是我个人感觉这样更能体现对偶算法一点。
对偶形式中训练实例x_i仅以内积的形式出现，所以我们可以预先将实例之间的内积求出来并保存到矩阵中，这个矩阵叫Gram矩阵： $G=[x_i*x_j ]_{N×N}$