2-感知机学习算法

最新推荐文章于 2022-10-17 10:52:38 发布

罗东琦

最新推荐文章于 2022-10-17 10:52:38 发布

阅读量300

点赞数 1

分类专栏：统计学习笔记

本文链接：https://blog.csdn.net/thu_ldq/article/details/81412233

版权

统计学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

感知机模型
感知机学习策略
与线性SVM的异同

感知机（perceptron）是一个线性二分类模型，其目的是寻找一个超平面将正负示例划分开，属于判别模型，也是神经网络与SVM的基础。

感知机模型

假设输入空间为 $\chi \subseteq R^n$ ，输出空间为 $\Upsilon \subseteq \{+1,-1\}$ 。输入 $x \in \chi$ 表示实例的特征向量，输出 $y \in \Upsilon$ 表示实例的类别。则下面的函数

f (x) = s i g n (w \cdot x + b)

$f(x)={\rm sign}(w \cdot x+b)$
称为感知机，其中

sign s i g n $\rm sign$ 为符号函数，

w w $w$ 为权值向量（weight vector），

b

$b$ 为偏置（bias）。
令

w⋅x+b=0 w ⋅ x + b = 0 $w \cdot x+b=0$ ，则所有的

x x $x$ 形成一个空间

χ

$\chi$ 上的超平面，将空间

χ χ $\chi$ 分为两个部分，对于满足

w⋅x+b≥0 w ⋅ x + b ≥ 0 $w \cdot x+b \geq 0$ 的实例感知机输出

+1 + 1 $+1$ ，反之则输出

−1 − 1 $-1$ 。

感知机学习策略

考察空间 $\chi$ 中任意一点 $x_0$ ，其到超平面 $w \cdot x + b = 0$ 的距离为1

1 ∥ w ∥ | w \cdot x 0 + b |

$\frac{1}{\Vert w \Vert} \vert w \cdot x_0 + b \vert$
由于

∥w∥ ‖ w ‖ $\Vert w \Vert$ 为常数，因此取损失函数为

L (w, b) = - \sum x i \in M y i (w \cdot x i + b)

$L \left( w,b \right) = -\sum_{x_i \in M}y_i \left( w \cdot x_i + b \right)$
其中

M M $M$ 为误分类点集合

学习算法

由于

\begin{aligned} \nabla_{w} L (w, b) & = - \sum_{x_{i} \in M} y_{i} x_{i} \\ \nabla_{b} L (w, b) & = - \sum_{x_{i} \in M} y_{i} \end{aligned}

$\begin{split} \nabla_w L \left( w,b \right) &= -\sum \limits_{x_i \in M} y_i x_i \\ \nabla_bL \left( w,b \right) &= -\sum \limits_{x_i \in M} y_i \end{split}$
因此从误分类点中任取一点

(xi,yi) ( x i , y i ) $\left( x_i, y_i \right)$ 得到感知机SGD的迭代公式

w b \leftarrow w + η y i x i \leftarrow b + η y i

$\begin{split} w &\leftarrow w + \eta y_i x_i \\ b &\leftarrow b + \eta y_i \end{split}$

算法收敛性

给定线性可分数据集 $T$ ,则

存在满足条件的超平面 w^opt⋅x^=wopt⋅x+bopt=0 将数据集完全分开；且存在 γ>0 ，对所有 i=1,2,⋯,N

yi(w^opt⋅x^i)=yi(wopt⋅xi+bopt)≥γ
- 令 $R=\max \limits_{1 \leq i \leq N } \Vert \hat{x}_i \Vert$ ，则感知机算法在训练集上的误分类次数 $k$ 满足 $k \leq {(\frac{R}{γ})}^{2}$ $k \leq \left( \frac{R}{\gamma} \right)^2$
- 对偶形式
  
  取初始值 $w_0=b_0=0$ ，由SGD可得
  
  wb=∑i=1Nniηyixi=∑i=1Nαiyixi=∑i=1Nniηyi=∑i=1Nαiyi
  
  由此可得感知机的对偶形式：
  输入： α,b ；感知机模型 f(x)=sign(∑j=1Nαjyjxj⋅x+b) ，其中 α=(α1,α2,⋯,αN)T 。
  1. $\alpha \leftarrow 0, b \leftarrow 0$
  2. 选取数据 $(x_i,y_i)$
  3. 如果 $y_i \left( \sum \limits_{j=1}^N\alpha_j y_j x_j \cdot x + b \right) \leq 0$ $α i b \leftarrow α i + η \leftarrow b + η y i$ $\begin{split} \alpha_i &\leftarrow \alpha_i+\eta\\ b &\leftarrow b+\eta y_i \end{split}$
  4. 转至2直至没有误分类数据。
  与线性SVM的异同
  
  从分类原理上看，线性感知机与线性SVM原理似乎相同：二者均为二分类模型，都是在特征空间寻找一个超平面将正负两类样本区分开来。事实上，感知机作为神经网络算法的基础，与SVM确实存在很多相似之处。作为线性分类器，感知机与SVM的预测过程相同，均是利用学得的模型 $f(x)={\rm sign}\left( w \cdot x + b \right)$ 进行分类，但是二者的学习过程存在差异。
  首先是损失函数，感知机一般将误分类点到超平面的距离之和作为损失函数，即
  
  LPerceptron=−∑xi∈Myi(w⋅xi+b)
  
  在神经网络中也常用交叉熵（cross entropy）作为分类任务的损失函数。可以看到，感知机是要最小化所有误分类样本点到超平面之间的距离，而SVM则是最大化两个异类支持向量（即离超平面最近的点）到超平面的距离 2∥w∥ ，或者说最小化其距离的倒数，即等价于
  
  mins.t.LSVM=12∥w∥2yi(wT⋅x+b≥1,)i=1,2,⋯,m。
  
  另外，在学习的过程中，感知机的损失函数是非凸的，因此一般采用梯度下降类方法进行优化，而SVM的损失函数是凸函数，可以采用凸优化（如SMO）的方法进行优化。
  1. 过 $x_0$ 向超平面 $w\cdot x + b = 0$ 作垂线，设垂足为 $x$ ，则有 $x-x_0=kw(k \neq 0)$ 。则有
    $w \cdot (x - x 0) = w \cdot x + b - w \cdot x 0 - b$ $w \cdot \left( x - x_0 \right) = w \cdot x + b - w \cdot x_0 -b$
    注意到 $w\cdot x + b = 0$ ，因此
    $w \cdot (x - x 0) = - w \cdot x 0 - b$ $w \cdot \left( x - x_0 \right)=- w \cdot x_0 -b$
    由于向量 $w$ 与 $x-x_0$ 平行，因此
    $| w \cdot (x - x 0) | = ∥ w ∥ ∥ x - x 0 ∥$ $\left \vert w \cdot \left( x - x_0 \right) \right \vert=\left \Vert w \right \Vert \left \Vert x - x_0 \right \Vert$
    因此
    $∥ x - x 0 ∥ = 1 ∥ w ∥ | w \cdot x 0 + b |$ $\left \Vert x - x_0 \right \Vert = \frac{1}{\left \Vert w \right \Vert}\left \vert w \cdot x_0 + b \right \vert$ ↩

罗东琦

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2-感知机学习算法

感知机模型欢迎使用Markdown编辑器写博客快捷键Markdown及扩展表格定义列表代码块脚注目录数学公式UML 图:离线写博客浏览器兼容感知机（perceptron）是一个线性二分类模型，其目的是寻找一个超平面将正负示例划分开，属于判别模型，也是神经网络与SVM的基础。感知机模型假设输入空间为χ⊆Rnχ⊆Rn\chi \subsete...
复制链接

扫一扫