《统计学习方法》（第二章）—— 感知机

最新推荐文章于 2024-04-22 11:35:31 发布

mkopvec

最新推荐文章于 2024-04-22 11:35:31 发布

阅读量161

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/mkopvec/article/details/90514945

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

感知机模型

定义：假设输入空间（特征空间）是 $\chi \subseteq R^n$ ，输出空间是 $\gamma=\{+1,-1\}$ .输入 $\in\chi$ 表示实例的特征向量，对应于输入空间（特征空间）的点；输出y $\in \gamma$ 表示实例的类别。由输入空间到输出空间的函数如下：
$f(x)=sign(w\cdot{x}+b)$ 称为感知机模型，其中 $w, b$ 为感知机的参数， $\in R^n$ 叫作权值或者权值向量， $\in R$ 叫做偏值， $w\cdot{x}$ 表示 $w, b$ 的内积. $s i g n$ 是符号函数，即
$sign(x)=\begin{cases} +1 &x\ge0\\ -1 & x < 0\\ \end{cases}$

感知机模型学习策略

如果 $x_i,y_i)$ 是正分类点，则 $y_i*(w\cdot{x_i}+b)>0$ ,如果 $x_i,y_i)$ 是误分类点，则 $y_i*(w\cdot{x_i}+b)\le0$
定义： $L(w,b)=-\sum\limits_{x_i \in M} y_i*(w\cdot{x_i}+b)$ ,其中 $M$ 是误分类点集合，即误分类点到超平面的距离

感知机学习算法

这里我们采用梯度下降法
$\nabla_wL(w.b)=-\sum\limits_{x_i \in M}y_i*x_i$
$\nabla_bL(w.b)=-\sum\limits_{x_i \in M}y_i$
$w=w+\eta*y_i*x_i$
$b=b+\eta*y_i$ ,其中 $\eta$ 为学习率
算法：
(1) 输入：训练数据集合 $T=\{(x_1,y_1),(x_2,y_2)...(x_N,y_N)\}$ ,其中 $x_i \in \chi=R^n,y_i \in\gamma=\{-1,+1\},$
$i = 1, 2 . . . N;$ 学习率为 $\eta(0<\eta\le1)$ ，输出： $w,b;f(x)=sign(w\cdot{x}+b)$
(2)在训练集中选取数据 $x_i,y_i)$
(3)如果 $y_i*(w\cdot{x_i}+b)\le0$
$w=w+\eta*y_i*x_i$
$b=b+\eta*y_i$
(4)转至(2),直到算法结束没有误分类点
算法的收敛性证明：
训练数据集合 $T=\{(x_1,y_1),(x_2,y_2)...(x_N,y_N)\}$ ,为线性可分，其中 $x_i \in \chi=R^n,y_i \in\gamma=\{-1,+1\},i=1,2...N;$ 则
存在满足条件 $\lVert{\hat{w}_{opt}\rVert}=1$ 的超平面 $\hat{w}_{opt}\cdot{\hat{x}}+b_{opt}=0$ 将训练数据集完全正确分开;且存在 $\gamma>0$ .对所有
$i = 1, 2, . . N$
$y_i*(\hat{w}_{opt}\cdot{\hat{x}})=y_i*(w_{opt}\cdot{x}+b_{opt})\ge\gamma$
令 $R=max\lVert{\hat{x}_{opt}\rVert}$ ,则感知机算法，在训练集上的误分类次数 $k$ 满足
$\le(\frac{R}{\gamma})^2$
- 证明：
  (1)
  取 $\hat{w}_{opt}$ ,则 $\hat{w}_{opt}*x=w_{opt}\cdot{x}+b_{opt}=0$ ,使 $\lVert{w_{opt}}\rVert=1$ ，由于对有限的 $i = 1, 2, . . . . N$ ，均有
  $y_{i}*(\hat{w}_{opt}\cdot{\hat{x_i}})=y_{i}*(w_{opt}\cdot{x_i}+b_{opt})>0$
  所以存在 $\gamma=min_i\{y_i*(w_{opt}\cdot{x_i}+b_{opt})\}$
  $y_{i}*(\hat{w}_{opt}\cdot{\hat{x_i}})=y_{i}*(w_{opt}\cdot{x_i}+b_{opt})\ge\gamma$
  (2)因为感知机是从 $\hat{w_0}=0$ 开始，如果被误分类，则跟新权重。令 $\hat{w}_{k-1}$ 是第k个误分类的扩充向量，
  $\hat{w}_{k-1}=(w_{k-1}^T,b_{k-1})^T$
  则第k个误分类实例条件是 $y_i*(\hat{w}_{k-1}\cdot{x_i}+b_{k-1})\le0$
  证明两个不等式：
  1). $\hat{w}_{k}\cdot{\hat{w}_{opt}}\ge k*\eta*\gamma$
  $\hat{w}_{k}\cdot{\hat{w}_{opt}}=\hat{w}_{k-1}\cdot{\hat{w}_{opt}}+\eta*{y_i}\cdot{\hat{x}_{i}}\ge\hat{w}_{k-1}\cdot{\hat{w}_{opt}}+\eta*\gamma$ .我们不断的递推
  $\hat{w}_{k}\cdot{\hat{w}_{opt}}\ge\hat{w}_{k-1}\cdot{\hat{w}_{opt}}+\eta*\gamma\ge\hat{w}_{k-2}\cdot{\hat{w}_{opt}}+2*\eta*\gamma\ge....\ge k*\eta\gamma$
  2) $\lVert{w_{k}}\rVert$ $^2\le k*\eta^2*R^2$
  $\lVert{w_{k}}\rVert^2$ $=\lVert{w_{k-1}}\rVert^2+2*\eta*y_i*\hat{w}_{k-1}\cdot{\hat{x}_{i}}+\eta^2*\lVert{\hat{x}_{i}}\rVert\le \lVert{w_{k-1}}\rVert^2$ $+\eta^2*\lVert{\hat{x}_{i}}\rVert\le \lVert{w_{k-1}}\rVert^2$ $+\eta^2*{R}\le$ $\lVert{w_{k-2}}\rVert^2$ $+2*\eta^2*{R}\le....\le k*\eta^2*R^2$
  证明完毕，结合以上两个不等式
  $k*\eta*\gamma\le\hat{w}_k\cdot{\hat{w}_{opt}}\le||\hat{w}_k||*||\hat{w}_{opt}||\le\sqrt{k}*\eta*R$
  $k^2\gamma^2\le k*R^2$
  $k\le(\frac{R}{\gamma})^2$ ,完毕
对偶形式
$w=w+\eta*y_i*x_i$
$b=b+\eta*y_i$
$w=\sum\limits_{i=1}^Na_{i}*y_i*x_i$
$b=\sum\limits_{i=1}^Na_{i}*y_i$
其中 $N$ 为训练数据数量, $a_i=n_{i}*\eta\ge0$
- 算法：
  (1) 输入：训练数据集合 $T=\{(x_1,y_1),(x_2,y_2)...(x_N,y_N)\}$ ,其中 $x_i \in \chi=R^n,$
  $y_i \in\gamma=\{-1,+1\},输出a.b.f(x)=sign(\sum\limits_{j=1}^Na_j*y_j*x_j\cdot{x}+b).a=(a_1,a_2,...,a_n)$
  $i = 1, 2 . . . N;$ 学习率为 $\eta(0<\eta\le1)$
  (2)在训练集中选取数据 $x_i,y_i)$
  (3)如果 $sign(\sum\limits_{j=1}^Na_j*y_j*x_j\cdot{x_i}+b)\le0$
  $a_i=a_i+\eta$
  $b=b+\eta*y_i$
  (4)转至(2),直到算法结束没有误分类点
Gram矩阵: $G=[x_i\cdot{x_j}]_{N×N}$