【李航统计学习笔记】第二章：感知机

最新推荐文章于 2024-07-24 22:14:11 发布

西风瘦马1912

最新推荐文章于 2024-07-24 22:14:11 发布

阅读量154

点赞数

分类专栏：李航统计学习笔记文章标签：机器学习算法支持向量机

本文链接：https://blog.csdn.net/weixin_39236489/article/details/125901985

版权

李航统计学习笔记专栏收录该内容

11 篇文章 2 订阅

订阅专栏

2.1 感知机模型

模型

感知机（Perceptron）针对的是二分类的线性模型，其输入为实例的特征向量，输出为实例的类别，取+1、-1。

假设输入空间是 $\subseteq R^{n}$

输入变量是 $\in X$

输出空间是 $Y=\{+1,-1\}$

输出变量是 $\in\{+1,-1\}$

由输入空间到输出空间满足下列函数：
$f(x)=\operatorname{sign} (w \cdot x+b)$
其中 $w$ 是权重参数， $b$ 是偏置项， $s i g n$ 是符号函数，即
$\operatorname{sign}(x)=\left\{\begin{aligned} 1, & x \geq 0 \\ -1, & x<0 \end{aligned}\right.$
感知机模型属于线性判别模型，旨在求出将训练数据进行线性划分的分离超平面

$\cdot x+b$ 是一个n维空间中的超平面S，其中w是超平面的法向量，b是超平面的截距，这个超平面将特征空间划分成两部分，位于两部分的点分别被分为正负两类，所以，超平面S称为分离超平面。其中w是超平面的法向量, b是超平面的截距, 特征空间也就是整个n维空间，样本的每个属性都叫一个特征，特征空间的意思是在这个空间中可以找到样本所有的属性组合

感知机学习策略

函数间隔与几何间隔

空间中任意一个点 $𝑥_0$ 到超平面S的距离。

函数间隔：
$\left|w \cdot x_{0}+b\right|$
几何间隔：
$\frac{1}{\|w\|}\left|w \cdot x_{0}+b\right|\\ \|w\|_{2}=\sqrt{\sum_{i=1}^{N} w_{i}^{2}}$
对于误分类数据而言,
$-y_{i}\left(w \cdot x_{i}+b\right)>0$
误分类点 $𝑥_𝑖$ 到超平面S的距离为
$-\frac{1}{\|w\|} y_{i}\left(w \cdot x_{i}+b\right)$
因此，所有误分类点到超平面S的总距离为:
$-\frac{1}{\|w\|} \sum_{x_{i} \in M} y_{i}\left(w \cdot x_{i}+b\right)$

损失函数：误分类点到超平面的总距离
$b)=-\sum_{x_{i} \in M} y_{i}\left(w \cdot x_{i}+b\right)$
输入空间 $R_n$ 中任意一点 $x_0$ 到超平面 $S$ 的距离可表示为 $\dfrac{|w \cdot x_0+b|}{\|w\|}$ ,其中 $\|w\|$ 表示为 $w$ 的 $L 2$ 范数。其次，对于误分类点 $x_i, y_i)$ 来说, $-y_i(w\cdot x_i+b)>0$ 成立. 当 $\cdot x_{i}+b>0$ 时， $y_i=-1$ 。而当 $w\cdot x_i+b<0$ 时， $y_i=+1$ 。因此而误分类点 $x_i$ 到超平面 $S$ 的距离是
$-\frac{1}{\|w\|} y_{i}\left(w \cdot x_{i}+b\right)$
假设超平面 $S$ 的五分类点集合为 $M$ ,那么所有误分类点到超平面 $S$ 的总距离为
$-\frac{1}{\|w\|} \sum_{x_{i} \in M} y_{i}\left(w \cdot x_{i}+b\right)$
忽略 $\|w\|$ ，就得到感知机学习的损失函数
$b)=-\sum_{x_{i} \in M} y_{i}\left(w \cdot x_{i}+b\right)$
其中 $M$ 为误分类点的集合

感知机学习算法

算法2.1（随机梯度下降法）

输入：训练数据集 $T=\left[\left(x_{1}, y_{1}\right), \ldots,\left(x_{N}, y_{N}\right)\right]$

选取超平面初始值 $w_0,b_0$
在训练集中选取数据 $x_i,y_i)$ ，如果 $y_{i}\left(w \cdot x_{i}+b\right) \leq 0$ ，采用梯度下降法极小化目标函数
$\begin{aligned} &L(w, b)=-\sum_{x_{i} \in M} y_{i}\left(w \cdot x_{i}+b\right) \\ &\nabla_{w} L(w, b)=-\sum_{x_{i} \in M} y_{i} x_{i} \\ &\nabla_{b} L(w, b)=-\sum_{x_{i} \in M} y_{i} \end{aligned}$
更新 $w, b$

$\begin{aligned} &w \leftarrow w+\eta y_{i} x_{i} \\ &b \leftarrow b+\eta y_{i} \end{aligned}$

转至2, 直到训练集中没有误分类点。

输出: $w, b$

2.2 对偶形式

感知机模型对偶形式
$f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} \cdot x+b\right), \alpha = (\alpha_1, \alpha_2, \cdots, \alpha_N)^T$

算法2.2原始形式

输入：训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{N}, y_{N}\right)\right\}$ , 其中 $x_{i} \in X=R^{n}, y_{i} \in Y=\{-1,+1\}, i=1,2, \ldots, N$ ; 学习率 $\eta(0<\eta \leq 1)$ ；

输出： $w$ , $b$ ; 感知机模型 $f(x)=\operatorname{sign}(w \cdot x+b)$

选取初始值 $w_{0}, b_{0}$
在训练集中选取数据 $x_i,y_i)$
如果 $y_{i}\left(w \cdot x_{i}+b\right) \leq 0$

$\begin{gathered} w \leftarrow w+\eta y_{i} x_{i} \\ b \leftarrow b+\eta y_{i} \end{gathered}$

转至2，直至训练集中没有误分类点

思考：

每次参数的更新公式是：

$\begin{gathered} w \leftarrow w+\eta y_{i} x_{i} \\ b \leftarrow b+\eta y_{i} \end{gathered}$

每次按照上式更新，假设修改n次，那么对于样本点 $x_i,y_i)$ 而言， $w$ 和 $b$ 的增量为 $\alpha_{i} y_{i} x_{i}$ 和 $\alpha_{i} y_{i}$ ，其中 $\alpha_{i}=n_{i} \eta$ 。

$\begin{aligned} &w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} \\ &b=\sum_{i=1}^{N} \alpha_{i} y_{i} \end{aligned}$

原始的感知机形式为:

$f(x)=\operatorname{sign}(w \cdot x+b)$

将目前的 $w$ 和 $b$ 代入原始感知机形式中:

$f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} \cdot x+b\right)$

感知机的对偶形式

输入：线性可分的数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{N}, y_{N}\right)\right\}$ , 其中 $x_{i} \in R^{n}, y_{i} \in\{-1,+1\}, i=1,2, \ldots, N$ , 学习率 $\eta(0<\eta \leq 1)$ ;

输出： $\alpha, b$ ; 感知机模型 $f(x)=\operatorname{sign}\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x+b\right)$ , 其中 $\alpha=\left(\alpha_{1}, \alpha_{2}, \ldots, \alpha_{N}\right)^{T}$ .

$\alpha \leftarrow 0, b \leftarrow 0$
在训练集中选取数据 $x_i,y_i)$
如果 $y_{i}\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x_{i}+b\right) \leq 0$

$\begin{aligned} &\alpha_{1} \leftarrow \alpha_{1}+\eta \\ &b \leftarrow b+\eta y_{i} \end{aligned}$

转至第二步，直至训练集中没有误分类点

对偶形式中训练实例仅以内积的形式出现。为了方便，可以预先将训练集中实例间的内积计算出来并以矩阵的形式储存，这个矩阵就是所谓的Gram矩阵:
$G=\left[x_{i} \cdot x_{j}\right]_{N \times N}$

2.3 算法收敛性

需要证明，感知机学习算法的原始形式在线性可分数据集上收敛。

为了便于推导，将偏置b并入权重向量w，计作 $\widetilde{w}=\left(w^{T}, b\right)^{T}$ ，同样也将输入向量加以扩充，加进常数1，记作 $\tilde{x}=\left(x^{T}, 1\right)^{T}$ ，显然，经过处理后， $\widetilde{w} \cdot \tilde{x}=w \cdot x+b$ 。

设训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{N}, y_{N}\right)\right\}$ 是线性可分的，其中 $x_{i} \in X=R^{n}, y_{i} \in Y=\{-1,+1\}, i=1,2, \ldots, N$ , 则

存在瞒住条件 $\left\|\widehat{\mathbf{w}}_{\text {opt }}\right\|=1$ 的超平面 $\widehat{\mathrm{w}}_{\text {opt }} \cdot \widehat{\mathrm{w}}=w_{o p t} \cdot x+b_{o p t}=0$ 将训练数据集完全正确分开；且存在 $\gamma>0$ ，对所有 $\ldots, N$ :

$y_{i}\left(\widehat{\mathrm{w}}_{\mathrm{opt}} \cdot \widehat{x_{i}}\right)=y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{\text {opt }}\right) \geq \gamma$

令 $R=\max _{1 \leq i \leq N}\left\|\hat{x}_{i}\right\|$ , 则感知机算法在训练数据集上的误分类次数k满足不等式：

$\leq\left(\frac{R}{\gamma}\right)^{2}$

证明(1)

由于训练数据集是线性可分的，按照定义2.2，存在超平面可将训练数据集完全正确分开，取此超平面为 $\widehat{\mathrm{w}}_{\text {opt }} \cdot \hat{x}=w_{o p t} \cdot x+b_{o p t}=0$ , 使得 $\left\|\widehat{\mathrm{w}}_{\text {opt }}\right\|=1$ 。由于对有限的 $\ldots, N$ , 均有
$y_{i}\left(\widehat{\mathrm{w}}_{\mathrm{opt}} \cdot \widehat{x}_{i}\right)=y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{o p t}\right)>0$
所以存在
$\gamma=\min \left\{y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{o p t}\right)\right.$
使得
$y_{i}\left(\widehat{\mathrm{w}}_{\mathrm{opt}} \cdot \widehat{x}_{i}\right)=y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{\mathrm{opt}}\right) \geq \gamma$
证明(2)

感知机算法从 $\widehat{\mathrm{w}}=0$ 开始，如果实例被误分类，则更新权重，令 $\widehat{w}_{k-1}$ 是第k个误分类实例之前的扩充权重向量，即
$\widehat{\mathrm{w}}_{k-1}=\left(w_{k-1}^{T}, b_{k-1}\right)^{T}$
则第 $k$ 个误分类实例的条件是
$y_{i}\left(\widehat{w}_{k-1} \cdot \widehat{x}_{i}\right)=y_{i}\left(w_{k-1} \cdot x_{i}+b_{k-1}\right) \leq 0$
若 $\left(x_{i}, y_{i}\right)$ 是被 $\widehat{w}_{k-1}=\left(w_{k-1}^{T}, b_{k-1}\right)^{T}$ 误分类的数据，则 $w$ 和 $b$ 的更新是
$\begin{gathered} w_{k} \leftarrow w_{k-1}+\eta y_{i} x_{i} \\ b_{k} \leftarrow b_{k-1}+\eta y_{i} \end{gathered}$
即
$\widehat{\mathrm{w}}_{k}=\widehat{\mathrm{w}}_{k-1}+\eta y_{i} \widehat{x_{i}}$
下面推导两个不等式.首先第一个：
$\widehat{\mathbf{W}}_{k} \cdot \widehat{\mathbf{W}}_{o p t} \geq k \eta \gamma$

由书中式(2.11)(这里的式(30))和式(2.8)(这里的式(22))可得
$\begin{aligned} \widehat{\mathrm{w}}_{k} \cdot \widehat{\mathrm{w}}_{o p t} &=\widehat{\mathrm{w}}_{k-1} \cdot \widehat{\mathrm{w}}_{o p t}+\eta y_{i} \widehat{\mathrm{w}}_{o p t} \cdot \widehat{x_{i}} \\ & \geq \widehat{\mathrm{w}}_{k-1} \cdot \widehat{\mathrm{w}}_{o p t}+\eta \gamma \end{aligned}$
由此递推得到不等式(书中式(2.12))
$\widehat{\mathrm{w}}_{k} \cdot \widehat{\mathrm{w}}_{o p t} \geq \widehat{\mathrm{w}}_{k-1}, \widehat{\mathrm{w}}_{o p t}+\eta \gamma \geq \widehat{\mathrm{w}}_{k-2} \cdot \widehat{\mathrm{w}}_{o p t}+2 \eta \gamma \geq \cdots \geq k \eta \gamma$

$\left\|\widehat{\mathrm{w}}_{k}\right\|^{2} \leq k \eta^{2} R^{2}$

由书中式(2.11)(这里的式(30))及式(2.10)(这里的(28))得
$\begin{gathered} \left\|\widehat{\mathrm{w}}_{k}\right\|^{2}=\left\|\widehat{\mathrm{w}}_{k-1}\right\|^{2}+2 \eta y_{i} \widehat{\mathrm{w}}_{k-1} \cdot \hat{x}_{i}+\eta^{2}\left\|\hat{x}_{i}\right\|^{2} \\ \leq\left\|\widehat{\mathrm{w}}_{k-1}\right\|^{2}+\eta^{2}\left\|\hat{x}_{i}\right\|^{2} \\ \leq\left\|\widehat{\mathrm{w}}_{k-1}\right\|^{2}+\eta^{2} R^{2} \\ \leq\left\|\widehat{\mathrm{w}}_{k-2}\right\|^{2}+2 \eta^{2} R^{2} \leq \cdots \\ \leq k \eta^{2} R^{2} \end{gathered}$
结合上面的不等式(33)和(34)可得
$\begin{gathered} \widehat{\mathrm{w}}_{k} \cdot \widehat{\mathrm{w}}_{o p t} \geq k \eta \gamma \\ \left\|\widehat{\mathrm{w}}_{k}\right\|^{2} \leq k \eta^{2} R^{2} \\ k \eta \gamma \leq \widehat{\mathrm{w}}_{k} \cdot \widehat{\mathrm{w}}_{o p t} \leq\left\|\widehat{\mathrm{w}}_{k}\right\|\left\|\widehat{\mathrm{w}}_{o p t}\right\| \leq \sqrt{k} \eta R \\ k^{2} \eta^{2} \leq k R^{2} \\ k \leq\left(\frac{R}{\gamma}\right)^{2} \end{gathered}$

总结

通过证明感知机误分类次数是有上界的，说明通过有限次搜索可以找到将数据集完全正确分开的分离超平面
当数据集线性不可分时，感知机学习算法不收敛，会发生振荡。

西风瘦马1912

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【李航统计学习笔记】第二章：感知机

感知机（Perceptron）针对的是二分类的线性模型，其输入为实例的特征向量，输出为实例的类别，取+1、-1。假设输入空间是X⊆RnX \subseteq R^{n}X⊆Rn输入变量是x∈Xx \in Xx∈X输出空间是Y={+1,−1}Y=\{+1,-1\}Y={+1,−1}输出变量是y∈{+1,−1}y \in\{+1,-1\}y∈{+1,−1}由输入空间到输出空间满足下列函数：f(x)=sign⁡(w⋅x+b)f(x)=\operatorname{sign} (w \cdot x+b)f(x)
复制链接

扫一扫

专栏目录