统计学习方法笔记-感知机

最新推荐文章于 2022-07-09 21:12:10 发布

小人国的蜗牛

最新推荐文章于 2022-07-09 21:12:10 发布

阅读量341

点赞数

分类专栏：统计学习方法文章标签：机器学习

本文链接：https://blog.csdn.net/qq_24699745/article/details/77981038

版权

统计学习方法专栏收录该内容

5 篇文章 1 订阅

订阅专栏

1.什么是感知机

感知机是一种线性的二分类模型，输入为数据的特征向量，而输出为数据的类型（+1或者-1）。

2.感知机模型

f(x)=sign(w⋅x+b) $f(x)=sign(w \cdot x+b)$

$w为权重$
$b为权重$
$f(x) = \begin{cases} +1, & x \ge 0 \\ -1, & x \lt 0 \end{cases}$
感知机相当于利用平面 $w\cdot x+b=0$ 这个平面将特征空间一分为二，分别代表正类存在的空间和负类存在的空间，如下图所示。

3.感知机的适用条件

感知机要求训练数据是线性可分的，也就是说特征空间R中必须存在某个线性平面可以完全正确的将数据分割为正类和负类，而对于不存在这个平面的时候，感知机是不适用的，如下图所示。
这里写图片描述
如上图所示这里不存在一个平面可以完美将数据分割开，所以这种情况下感知机不适用。

4.感知机的学习策略

4.1损失函数与风险函数

所有误分类点到分割平面S的总距离，如下所示。

- 1 | | w | | \sum x i \in M y i (w \cdot x i + b)

$-\frac{1}{||w||}\sum_{x_i\in M}y_i(w\cdot x_i+b)$
这里如果不考虑

||w|| $||w||$ 的话就可以得到感知机的损失函数，如下：

L (w, b) = - \sum x i \in M y i (w \cdot x i + b)

$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i +b)$
这个函数也就是感知机的经验风险函数。

4.2学习算法

感知机采用的学习算法是随机梯度下降法，其中风险函数的梯度如下：

\nabla w L (w, b) = - \sum x i \in M y i x i

$\nabla _w L(w,b)=-\sum_{x_i\in M}y_i x_i$

\nabla b L (w, b) = - \sum x i \in M y i

$\nabla _b L(w,b)=-\sum_{x_i\in M}y_i$
具体的计算流程如下
1.选取初始的

w0,b0 $w_0,b_0$
2.选取一个误分类点更新参数

wk−1→wk−1+ηyixi $w_{k-1}\rightarrow w_{k-1}+\eta y_i x_i$

bk−1→bk−1+ηyi $b_{k-1}\rightarrow b_{k-1}+\eta y_i$
3.转至2循环执行，直到没有误分类点

4.3学习算法的收敛性证明

4.3.1定理

为了后面推导方便这里参数记为 $\widehat w=(w^T,b)^T,\widehat x=(x^T,1)^T。$ 显然上面的式子满足 $\widehat w\cdot \widehat x=w\cdot x+b。$
由于训练集是线性可分的，所以存在 $||\widehat w_{opt}||=1$ 的超平面 $\widehat w_{opt} \cdot \widehat x =0$ 可以将训练集正确分开，而且存在 $\gamma$ >0对于所有的训练集数据都满足:

yi(wˆopt⋅xˆ)≥γ $y_i (\widehat w_{opt} \cdot \widehat x)\ge \gamma$
这种情况下感知机学习算法的误分类次数满足如下条件：

k≤(Rγ)2 $k\le (\frac{R}{\gamma})^2$
式中

R = max 1 \leq i \leq N | | x ˆ | |

$R=\max_{1\le i \le N}||\widehat x||$

4.3.2具体证明

(1)由学习算法的参数更新可以得出:

w ˆ k \leftarrow w ˆ k - 1 + η y i x ˆ i

$\widehat w_k \leftarrow \widehat w_{k-1}+\eta y_i \widehat x_i$

w ˆ k \cdot w ˆ o p t = w ˆ k - 1 \cdot w ˆ o p t + η y i w ˆ o p t \cdot x ˆ i

$\widehat w_k \cdot \widehat w_{opt}=\widehat w_{k-1}\cdot \widehat w_{opt}+\eta y_i \widehat w_{opt} \cdot\widehat x_i$

w ˆ k - 1 \cdot w ˆ o p t + η y i w ˆ o p t \cdot x ˆ i \geq w ˆ k - 1 \cdot w ˆ o p t + η γ

$\widehat w_{k-1}\cdot \widehat w_{opt}+\eta y_i \widehat w_{opt} \cdot\widehat x_i \ge \widehat w_{k-1}\cdot \widehat w_{opt}+ \eta \gamma$
通过对上面的式子递推可以得到：

w ˆ k \geq w ˆ 0 + k η γ

$\widehat w_k\ge \widehat w_0 +k\eta \gamma$
(2)

| | w ˆ k | | 2 = | | w ˆ k - 1 | | 2 + 2 η y i w ˆ k - 1 \cdot x ˆ i + η 2 | | x ˆ i | | 2

$||\widehat w_k||^2 =||\widehat w_{k-1}||^2+2\eta y_i \widehat w_{k-1}\cdot \widehat x_i +\eta^2||\widehat x_i||^2$
由于

xˆi $\widehat x_i$ 是误分类点，所以第二项小于0，所以可得：

| | w ˆ k | | 2 \leq | | w ˆ k - 1 | | 2 + η 2 | | x ˆ i | | 2 \leq | | w ˆ k - 1 | | 2 + η 2 R 2

$||\widehat w_k||^2 \le||\widehat w_{k-1}||^2 +\eta^2||\widehat x_i||^2\le||\widehat w_{k-1}||^2 +\eta^2R^2$
递推得到如下结果：

| | w ˆ k | | 2 \leq | | w ˆ 0 | | 2 + k η 2 R 2

$||\widehat w_k||^2 \le||\widehat w_0||^2 +k\eta^2R^2$
当

||wˆ0||=0 $||\widehat w_0||=0$ 时，结合(1)(2)可以得出如下不等式:

k η γ \leq w ˆ k \cdot w ˆ o p t \leq | | w ˆ k | | | | w ˆ o p t | | \leq k \sqrt η R

$k\eta\gamma\le\widehat w_k \cdot \widehat w_{opt}\le||\widehat w_k|| ||\widehat w_{opt}||\le\sqrt k \eta R$
所以

k \leq (R r) 2

$k\le(\frac{R}{r})^2$

4.3.3关于收敛性的思考

看到上面的推论，我们会发现一个问题步长 $\eta$ 的大小不影响迭代的次数上限，但是步长不是会影响学习速度吗？如果步长特别小的话，需要的迭代次数不是会特别多吗？
关于这个问题，我们看到上面的定理的假设就是 $\widehat w_0=0$ ，初值为0的话，之后每一次迭代产生的平面都可以表达为 $\sum \eta y_i \widehat x_i=0$ ，进一步化简可以变为 $\sum y_i \widehat x_i=0$ 。这个时候就可以看出平面与步长没有关系，所以在初值为0的时候迭代次数上限与步长没有关系。