《统计学习方法》—— 感知机原理、推导以及python3代码实现（一）

最新推荐文章于 2024-01-24 22:16:36 发布

wangxinRS

最新推荐文章于 2024-01-24 22:16:36 发布

阅读量344

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_30841655/article/details/106674265

版权

机器学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

前言

感知机是《统计学习方法》介绍的第一个算法，它解决的也是最基本的问题，即，面对已经标记的数据，如何根据标记将它们区分开来。

本文将从感知机问题的来源、感知机推导以及感知机的python3代码实现来展开。

1、问题的来源

为什么需要感知机？举个相亲的例子。

你相亲了四个男性，分别为A，B，C，D；
每个男性，从身高和颜值这两个特征进行刻画，身高以米为单位，颜值从0到1打分；
这四个男性的数据为A(1.80，0.6)，B(1.76, 0.9)，C(1.5, 0.4)，D(1.4, 0.7)；
这四个男性分别被你标记为理想(+1)，理想(+1)，失望(-1)，失望(-1)。

将上面的数据展示出来，如下
在这里插入图片描述

如果你又收到一个相亲邀约，且对方已经将颜值-身高数据 E(1.7, 0.8)发给你，如图1，那么，你将

如何基于经验，也就是上述四个男性的数据
决定是否开始新的相亲（如果理想则相亲，否则不相亲）？

2. 问题的抽象

我们有N个数据， $x_1$ ， $x_2$ ，…， $x_N$ ，它们的标记分别为 $y_1$ ， $y_2$ ，…， $y_N$ 。其中， $x_i\in\mathbb{R}^n$ ， $y_i\in\{+1, -1\}$ .

类似于相亲问题，当遇到一个新的数据 $x_{N+1}$ ，如何给它标记，或者说， $y_{N+1}=?$ 。

3. 问题的简单化

我们对数据集提出要求，即，要求数据集是线性可分的。

直观上说，线性可分的数据集是如图2所示的，总是有一条直线可以将其划分。

而对另一些数据，如图3所示，则是不可分的，因为找不到这样一条直线，使得它能够分开数据集。
线性可分数据集的数学定义。

考虑数据集
$T=\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}$
其中， $x_i\in\mathbb{R}^n$ ， $y_i\in\{+1, -1\}$ 。

在特征空间 $\mathbb{R}^n$ 里面，如果存在一个超平面
$w\cdot x+b=0$
使得不等式 $y_i(w\cdot x_i+b)>0$ 恒成立，则称该数据集 $T$ 是线性可分的，否则，数据集 $T$ 线性不可分。

线性可分数据集的解释。

根据定义，线性可分的数据集，总是存在一个超平面 $w\cdot x+b=0$ ，使得对于标记为+1，也就是 $y_i=+1$ 的数据，有 $w\cdot x_i+b>0$ ；对于标记为-1，也就是 $y_i=-1$ 的数据，有 $w\cdot x_i+b<0$ 。

这里，超平面 $w\cdot x+b=0$ 其实对应着图2中的那条直线。

4. 问题的求解

对于线性可分数据集而言，显然我们需要找到一个特征空间 $\mathbb{R}^n$ 中的超平面 $w\cdot x+b=0$ ，使得
$y=f(x)=sign(w\cdot x+b)$
对数据集 $T=\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}$ 恒成立。

这样，当来到一个新的数据 $x_{N+1}$ 时，它的标记可以令为 $y_{N+1}=f(x_{N+1})$ 。

4.1 损失函数

在进行具体的求解之前，我们当然期望模型 $f(x)=sign(w\cdot x+b)$
对于数据集 $T$ 越准确越好，也就是说，希望误分类点越少越好。如果没有误分类点，那么这个模型就是我们要求的。

对于误分类点 $x_i, y_i)$ ，模型 $y=f(x_i)$ 得到的标记与实际标记 $y_i$ 符号相反，即， $y_i(w\cdot x_i+b)<0$ 。

记误分类点集合为 $M$ ，自然的，我们选取如下函数作为目标函数，
$\min\limits_{w, b} L(w, b)=-\sum\limits_{x_i\in M}y_i(w\cdot x_i+b)$

显然，如果集合 $M$ 非空，则 $L (w, b) > 0$ 恒成立。当我们能够求得一组 $(w, b)$ 使得 $L (w, b) = 0$ ，此时已经没有误分类点，也就是我们要求的结果。

4.2 梯度下降

面对目标函数或者损失函数
$\min\limits_{w, b} L(w, b)=-\sum\limits_{x_i\in M}y_i(w\cdot x_i+b)$
我们可以用梯度下降方法进行求解。对函数 $L (w, b)$ 分别对 $w$ 和 $b$ 求偏导，有
$\nabla_{w}L(w, b)=-\sum\limits_{x_i\in M}y_ix_i$

$\nabla_{b}L(w, b)=-\sum\limits_{x_i\in M}y_i$

显然，每次更新 $(w, b)$ 之后，误分类集 $M$ 就会发生变化，因此，为了减少计算，我们可以随机选择一个误分类点 $(x_i, y_i)\in M$ 进行更新。

并且，梯度方向是函数增加最快的方向，因此，要取最小，我们只需要取梯度的反方向即可。
$w\leftarrow w+\eta y_ix_i$

$b\leftarrow b+\eta y_i$

这里， $\eta$ 为学习步长。步长过小，会造成算法时间过长；步长过大，可能会导致震荡而无法达到最优值。如图4，图5所示。
在这里插入图片描述

5. 感知机算法

通过上面的讨论，我们知道如何更新 $(w, b)$ ，以及何时停止算法。

现将算法总结如下：

步骤一：任意挑选初值 $w_0$ 和 $b_0$ ；
步骤二：遍历整个数据集 $T$ ，找出第一个误分类点 $x_i, y_i)$ ；
步骤三：更新 $w$ 和 $b$ ，如下 $w\leftarrow w+\eta y_i x_i$ $b\leftarrow b+\eta y_i$
步骤四：返回步骤二，当找不到误分类点时，终结算法

下面证明上述算法，在给定数据集 $T$ 的情况下，总是可以在有限步内获得解 $w_{opt}, b_{opt})$ 。

记第k次更新后，参数为 $w_k, b_k)$ 。我们令初始值 $w_0, b_0)=(0, 0)$ 。

我们的证明分为三个步骤：

证明 $\left\|(w_k, b_k)\right\|^2\le k\eta^2R^2$ 。实际上，
$\begin{array}{lll} \left\|(w_k, b_k)\right\|^2 &=& \left\|(w_{k-1}+\eta y_i x_i, b_{k-1}+\eta y_i)\right\|^2\\ &=& \left\| (w_{k-1}, b_{k-1})+ \eta y_i( x_i，1) \right\|^2\\ &\le&\left\|(w_{k-1}, b_{k-1})\right\|^2 +2\eta y_i(w_{k-1}, b_{k-1})\cdot( x_i，1)+ \left\|\eta y_i( x_i，1) \right\|^2 \end{array}$

由于 $x_i, y_i)$ 是第k次更新时发现的误分类点，所以满足 $y_i(w_{k-1}, b_{k-1})\cdot( x_i，1)\le 0$

所以可以得到，
$\begin{array}{lll} \left\|(w_k, b_k)\right\|^2&\le&\left\|(w_{k-1}, b_{k-1})\right\|^2+\left\|\eta y_i( x_i，1) \right\|^2 \\ &\le&\left\|(w_{k-1}, b_{k-1})\right\|^2+\eta^2R^2 \end{array}$

其中， $R=\max\limits_{(x_i, y_i)\in T}\left\|( x_i，1) \right\|$ 。

对上式进行递归，考虑到 $w_0, b_0)=(0, 0)$ ，可以得到
$\left\|(w_k, b_k)\right\|^2\le k\eta^2R^2$
2. 证明 $(w_k, b_k)\cdot(w_{opt}, b_{opt})\ge k\eta\gamma$ 。实际上，
$\begin{array}{lll} (w_k, b_k)\cdot(w_{opt}, b_{opt}) &=& (w_{k-1}+\eta y_i x_i, b_{k-1}+\eta y_i)\cdot(w_{opt}, b_{opt})\\ &=& w_{k-1}\cdot w_{opt}+ b_{k-1}b_{opt} + \eta y_i(w_{opt}\cdot x_i+b_{opt}) \\ &=& (w_{k-1}, b_{k-1})\cdot(w_{opt}, b_{opt}) + \eta y_i(w_{opt}\cdot x_i+b_{opt}) \\ &\ge&(w_{k-1}, b_{k-1})\cdot(w_{opt}, b_{opt}) + \eta \gamma \end{array}$

其中， $\gamma=\min\limits_{(x_i, y_i)\in T}y_i(w_{opt}\cdot x_i+b_{opt})$ 。

通过递归，考虑到 $w_0,b_0)=(0, 0)$ ，我们有 $(w_k, b_k)\cdot(w_{opt}, b_{opt})\ge k\eta\gamma$
3. 证明更新次数 $k$ 满足 $k\le\left(\frac{R}{\gamma}\right)^2$ 。根据第一步和第二步得到的两个不等式，我们有
$\begin{array}{lll} k\eta\gamma&\le& (w_k, b_k)\cdot(w_{opt}, b_{opt})\\ &\le&\left\|(w_k, b_k)\right\|\cdot\left\|(w_{opt}, b_{opt})\right\|\\ &=&\left\|(w_k, b_k)\right\|\\ &\le&\sqrt{k} \eta R \end{array}$

通过简单化简，可以得到 $k\le\left(\frac{R}{\gamma}\right)^2$ 。

这里的等式之所以成立，是因为我们可以选取 $w_{opt}, b_{opt})$ 使得 $\left\|(w_{opt}, b_{opt})\right\|=1$ 。这样的选取是简单的。考虑超平面
$w_{opt}\cdot x + b_{opt}=0$

由于对 $w_{opt}$ 和 $b_{opt}$ 同时乘除一个数，超平面并不变，因此，我们可以同时乘以 $\frac{1}{\left\|(w_{opt}, b_{opt})\right\|}$ ，此时，新的参数 $(\frac{w_{opt}}{\left\|(w_{opt}, b_{opt})\right\|}, \frac{b_{opt}}{\left\|(w_{opt}, b_{opt})\right\|})$ 满足 $\left\|(\frac{w_{opt}}{\left\|(w_{opt}, b_{opt})\right\|}, \frac{b_{opt}}{\left\|(w_{opt}, b_{opt})\right\|})\right\|=1$