统计学习方法读书笔记第二章：感知机

最新推荐文章于 2021-10-14 16:29:49 发布

LYPG

最新推荐文章于 2021-10-14 16:29:49 发布

阅读量278

点赞数

文章标签：统计学习方法读书笔记第二章：感知机

本文链接：https://blog.csdn.net/weixin_40692963/article/details/87105063

版权

统计学习方法读书笔记第二章：感知机

感知机

感知机

感知机是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。

感知机模型

（感知机） 假设输入空间（特征空间）是 $\mathcal{X}\subseteq\bold{R^{n}}$ ，输出空间是 $\mathcal{Y}=\{+1,-1\}$ 。输入 $x\in\mathcal{X}$ 表示实例的特征向量，对应于输入空间（特征空间）的点；输出 $y\in\mathcal{Y}$ 表示实例的类别。由输入空间到输出空间的如下函数
$\cdot x + b) \tag{1}$
称为感知机。其中， $w$ 和 $b$ 为感知机模型参数， $w\in\bold{R^{n}}$ 叫作权值或权值向量， $b\in\bold{R}$ 叫作偏置， $w\cdot x$ 表示 $w$ 和 $x$ 的内积，sign是符号函数，即
$\left\{ \begin{array}{ll} +1,&x\geq 0 \\ -1, &x<0 \end{array} \right. \tag{2}$
感知机是一种线性分类模型，属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器，即函数集合 $\{f|f(x) = w \cdot x + b\}$ 。
感知机有如下几何解释：线性方程
$\cdot x + b = 0 \tag{3}$
对应于特征空间 $\bold{R}^n$ 中的一个超平面 $S$ ，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点（特征向量）分别被分为正、负两类。因此，超平面 $S$ 称为分离超平面，如图所示：

感知机学习策略

数据集的线性可分性
定义2（数据集的线性可分性） 给定一个数据集
$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\},$
其中， $x_i\in\mathcal{X}=R^n, y_i\in\mathcal{Y}=\{+1,-1\},i=1,2,\cdots,N$ ，如果存在某个超平面S
$w\cdot x+b=0$
能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，即对所有 $y_i=+1$ 的实例 $i$ ，有 $w\cdot x_i+b>0$ ，对所有 $y_i=-1$ 的实例 $i$ ，有 $w\cdot x_i+b<0$ ，则称数据集 $T$ 为线性可分数据集；否则，称数据集 $T$ 线性不可分。
感知机学习策略： 假设训练数据集是线性可分的，感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全分开的分离超平面。
–损失函数选择的是误分类点到超平面 $S$ 的总距离，这是感知机所采用的。为此，首先写出输入空间 $\bold{R}^n$ 中任一点 $x_0$ 到超平面 $S$ 的距离：
$\frac{1}{||w||}|w \cdot x_0+b|$
这里， $∣ ∣ w ∣ ∣$ 是 $w$ 的 $L_2$ 范数。其次，对于误分类的数据 $x_i,y_i)$ 来说，
$-y_i(w\cdot x_i+b) > 0$
这样，假设超平面 $S$ 的误分类点集合为 $M$ ，那么所有误分类点到超平面 $S$ 的总距离为
$-\frac{1}{||w||}\sum_{x_i\in M}y_i(w\cdot x_i+b)$
不考虑 $\frac{1}{||w||}$ ，就得到感知机学习的损失函数。
$-\sum_{x_i\in M}y_i(w\cdot x_i+b) \tag{4}$
显然，损失函数 $L (w, b)$ 是非负的。如果没有误分类点，损失函数值是0.而且，误分类点越少，误分类点离超平面越近，损失函数值就越小。一个特定的样本点的损失函数：在误分类时是参数 $w, b$ 的线性函数，在正确分类时是0。因此，给定训练数据集 $T$ ，损失函数 $L (w, b)$ 是 $w, b$ 的连续可导函数。

感知机学习算法

感知机学习问题转化为求解损失函数式(4)的最优化问题，最优化的方法是随机梯度下降法。

感知机学习算法的原始形式
感知机学习算法是对以下最优化问题的算法。给定一个训练数据集
$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$
其中， $x_i\in\mathcal{X}=R^n,y_i\in\mathcal{Y}=\{-1,＋1\},i=1,2,\cdots,N$ ，求参数 $w$ ， $b$ ，使其为以下损失函数极小化问题的解
$\min_{w,b}L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b) \tag{5}$
其中 $M$ 为误分类点的集合。
感知机学习算法是误分类驱动的，具体采用随机梯度下降法。首先，任意选取一个超平民啊 $w_0$ ， $b_0$ ，然后用梯度下降法不断地极小化目标函数(5)。极小化过程中不是一次使 $M$ 中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。
假设误分类点集合 $M$ 是固定的，那么损失函数 $L (w, b)$ 的梯度由
$\triangledown_wL(w,b)=-\sum_{x_i\in M}y_ix_i \\ \triangledown_bL(w,b)--\sum_{x_i\in M}y_i$
给出。
随机选取一个误分类点 $x_i,y_i)$ ，对 $w$ ， $b$ 进行更新：
$w\leftarrow w+\eta y_ix_i \tag{6}$
$b\leftarrow b+\eta y_i \tag{7}$
式中 $\eta(0<\eta\leq 1)$ 是步长，在统计学习中又称为学习率。这样，通过迭代可以期待损失函数 $L (w, b)$ 不断减小，直到为0。综上所述，得到如下算法：
算法1（感知机学习算法的原始形式）
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中 $x_i\in\mathcal{X}=R^n,y_i\in\mathcal{Y}=\{-1,＋1\},i=1,2,\cdots,N$ ；学习率 $\eta(0<\eta\leq 1)$ ；
输出： $w$ ， $b$ ；感知机模型 $f(x)=sign(w\cdot x+b)$ 。
(1) 选取初值 $w_0$ ， $b_0$
(2) 在训练集中选取数据 $x_i,y_i)$
(3) 如果 $y_i(w\cdot x_i+b)\leq 0$
$w\leftarrow w+\eta y_ix_i \\ b\leftarrow b+\eta y_i$
(4) 转至(2)，直到训练集中没有误分类点。
这种学习算法直观上有如下解释：当一个实例点被误分类，即位于分离超平面的错误一侧时，则调整 $w$ ， $b$ 的值，使分离超平面向该误分类点的一侧移动，以减少该误分类点与超平面间的距离，直至超平面越过该误分类点使其被正确分类。
算法1是感知机学习的基本方法，对应于后面的对偶形式，称为原始形式。感知机学习算法简单且易于实现。感知机学习算法由于采用不同的初值或选取不同的误分类点，解可以不同。
算法的收敛性
现在证明，对于线性可分数据集感知机学习算法原始形式收敛，即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。
为了便于叙述与推导，将偏置 $b$ 并入权重向量 $w$ ，记作 $\hat w=(w^T,b)^T$ ，同样也将输入向量加以扩充，加进常数1，记作 $\hat x=(x^T,1)^T$ 。这样， $\hat x\in R^{n+1},\hat\in R^{n+1}$ 。显然， $\hat w\cdot\hat x=w\cdot x+b$ 。
定理1（Novikoff） 设训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 是线性可分的，其中 $x_i\in\mathcal{X}=R^n,y_i\in\mathcal{Y}=\{-1,＋1\},i=1,2,\cdots,N$ ，则
(1) 存在满足条件 $||\hat w_{opt}||=1$ 的超平面 $\hat w_{opt}\cdot\hat x=w_{opt}\cdot x+b_{opt}=0$ 将训练数据集完全正确分开；且存在 $\gamma>0$ ，对所有 $i=1,2,\cdots,N$
$y_i(\hat w_{opt}\cdot\hat x_i)=y_i(w_{opt}\cdot x_i+b_{opt})\geq\gamma \tag{8}$
(2) 令 $R=\max_{1\leq i\leq N}||\hat x_i||$ ，则感知机算法1在训练数据集上的误分类次数 $k$ 满足不等式
$k\leq\bigg(\frac{R}{\gamma}\bigg)^2 \tag{9}$
证明 (1) 由于训练数据集是线性可分的，按照定义2，存在超平面可将训练数据集完全正确分开，取此超平面为 $\hat w_{opt}\cdot\hat x=w_{opt}\cdot x+b_{opt}=0$ ，使 $||\hat w_{opt}||=1$ 。由于对有限的 $i=1,2,\cdots,N$ ，均有
$y_i(\hat w_{opt}\cdot\hat x_i)=y_i(w_{opt}\cdot x_i+b_{opt})>0$
所以存在
$\gamma=\min_i\{y_i(w_{opt}\cdot x_i+b)\}$
使
$y_i(\hat w_{opt}\cdot\hat x_i)=y_i(w_{opt}\cdot x_i+b_{opt})\geq\gamma$
(2) 感知机算法从 $\hat w_0=0$ 开始，如果实例被误分类，则更新权重。令 $\hat w_{k-1}$ 是第 $k$ 个误分类实例之前的扩充权重向量，即
$\hat w_{k-1}=(w_{k-1}^T,b_{k-1})^T$
则第 $k$ 个误分类实例的条件是
$y_i(\hat w_{k-1}\cdot\hat x_i)=y_i(w_{k-1}\cdot x_i+b_{k-1})\leq0 \tag{10}$
若 $x_i,y_i)$ 是被 $\hat w_{k-1}=(w_{k-1}^T,b_{k-1})^T$ 误分类的数据，则 $w$ 和 $b$ 的更新是
$w_k\leftarrow w_{k-1}+\eta y_ix_i \\ b_k\leftarrow b_{k-1}+\eta y_i$
即
$\hat w_k=\hat w_{k-1}+\eta y_i\hat x_i \tag{11}$
下面推导两个不等式：
(1) $\hat w_k\cdot\hat w_{opt}\geq k\eta\gamma \tag{12}$
由式(11)及式(8)得
$\begin{aligned} \hat w_k\cdot\hat w_{opt}&=\hat w_{k-1}\cdot\hat w_{opt}+\eta y_i\hat w_{opt}\cdot\hat x_i \\ &\geq\hat w_{k-1}\cdot\hat w_{opt}+\eta\gamma \end{aligned}$
由此递推即得不等式(12)
$\hat w_k\cdot\hat w_{opt}\geq\hat w_{k-1}\cdot\hat w_{opt}+\eta\gamma\geq\hat w_{k-2}\cdot\hat w_{opt}+2\eta\gamma\geq\cdots\geq k\eta\gamma$
(2) $||\hat w_k||^2\leq k\eta^2R^2 \tag{13}$
由式(11)及式(10)得
$\begin{aligned} ||\hat w_k||^2&=||\hat w_{k-1}||^2+2\eta y_i\hat w_{k-1}\cdot\hat x_i+\eta^2||\hat x_i||^2 \\ &\leq||\hat w_{k-1}||^2+\eta^2||\hat x_i||^2 \\ &\leq||\hat w_{k-1}||^2+\eta^2R^2 \\ &\leq||\hat w_{k-2}||^2+2\eta^2R^2\leq\cdots \\ &\leq k\eta^2R^2 \end{aligned}$
综合不等式(12)及式(13)即得
$\begin{aligned} &k\eta\gamma\leq\hat w_k\cdot\hat w_{opt}\leq||\hat w_k||||\hat w_{opt}||\leq\sqrt k\eta R \\ &k^2\gamma^2\leq kR^2 \end{aligned}$
于是
$k\leq\bigg(\frac{R}{\gamma}\bigg)^2$
定理表明，误分类的次数 $k$ 是有上界的，经过有限次搜索可以找到将训练数据完全正确分开的分离超平面。也就是说，当训练数据集线性可分时，感知机学习算法的原始形式迭代是收敛的。同时，感知机学习算法存在许多解，这些解既依赖于初值的选择，也依赖于迭代过程中误分类点的选择顺序。为了得到唯一的超平面，需要对分离超平面增加约束条件。这就是线性支持向量机的想法。当训练集线性不可分时，感知机学习算法不收敛，迭代结果会发生震荡。
感知机学习算法的对偶形式
现在考虑感知机学习算法的对偶形式。对偶形式的基本想法是，将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式，通过求解其系数而求得 $w$ 和 $b$ ，不失一般性，在算法1中可假设初始值 $w_0$ ， $b_0$ 均为0。对误分类点 $x_i,y_i)$ 通过
$\begin{aligned} &w\leftarrow w+\eta y_ix_i \\ &w\leftarrow b+\eta y_i \end{aligned}$
逐步修改 $w$ ， $b$ ，设修改n次，则 $w$ ， $b$ 关于 $x_i,y_i)$ 的增量分别是 $\alpha_iy_ix_i$ 和 $\alpha_iy_i$ ，这里 $\alpha_i=n_i\eta$ 。这样，从学习过程不难看出，最后学习到的 $w$ ， $b$ 可以分别表示为
$w=\sum_{i=1}^N\alpha_iy_ix_i \tag{14}$
$b=\sum_{i=1}^N\alpha_iy_i \tag{15}$
这里， $\alpha_i\geq0,i=1,2,\cdots,N$ ，当 $\eta=1$ 时，表示第 $i$ 个实例由于误分而进行更新的次数。实例点更新次数越多，意味着它距离分离超平面越近，也就越难正确分类。换句话说，这样的实例对学习结果影响最大。
下面对照原始形式来叙述感知机学习算法的对偶形式。
算法2（感知机学习算法的对偶形式）
输入：线性可分的数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中 $x_i\in R^n, y_i\in\{-1,+1\},i=1,2,\cdots,N$ ；学习率 $\eta(0<\eta\leq1)$ ；
输出： $\alpha$ ， $b$ ；感知机模型 $f(x)=sign\bigg(\sum_{j=1}^N\alpha_jy_jx_i\cdot x+b\bigg)$ 。其中 $\alpha=(\alpha_1,\alpha_2,\cdots,\alpha_N)^T$ 。
(1) $\alpha\leftarrow0$ ， $b\leftarrow0$
(2) 在训练集中选取数据 $x_i,y_i)$
(3) 如果 $y_i\bigg(\sum_{j=1}^N\alpha_jy_jx_j\cdot x_i+b\bigg)\leq0$
$\begin{aligned} &\alpha_i\leftarrow\alpha_i+\eta &b\leftarrow b+\eta y_i \end{aligned}$
(4) 转至(2)直到没有误分类数据。
对偶形式中训练实例仅以内积的形式出现。为了方便，可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储，这个矩阵就是所谓的Gram矩阵
$G=[x_i\cdot x_j]_{N\times N}$

LYPG

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法读书笔记第二章：感知机

统计学习方法概论第二章感知机感知机模型感知机学习策略感知机学习算法感知机感知机是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。感知机模型...
复制链接

扫一扫