感知机

最新推荐文章于 2019-06-03 21:27:03 发布

ASH9750

最新推荐文章于 2019-06-03 21:27:03 发布

阅读量581

点赞数 2

分类专栏：机器学习文章标签：机器学习感知机神经网络

本文链接：https://blog.csdn.net/sinat_29315627/article/details/74915502

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

感知机

感知机

机器学习的第一篇, 写给浮躁的自己

简介

感知机（perceptron）是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别，取 +1 和 -1 二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习算法具有简单而易于实现的优点，是神经网络与支持向量机的基础。

感知机模型

感知机的以一个实数值向量作为输入，计算这些输入的线性组合，如果结果大于某个阈值则输出 +1 否则输出 -1. 如输入为 $x_{1}, x_{2}, ... , x_{n}$ ，则输出为：

f (x) = {1, i f w 0 + w 1 x 1 + . . . + w n x n > 0 - 1, o t h e r w i s e

$f(x) = \left\{\begin{matrix}1, if w_{0} + w_{1}x_{1} + ... + w_{n}x_{n} > 0 \\-1, otherwise \end{matrix}\right.$

其中 $w_{i}$ 是一个实数常量，称为权重(weight)，用来表示 $x_{i}$ 对输出的贡献率。 $w_{0}$ 又写作 $b$ 称为偏置(bias). 在这里 $-w_{0}$ 表示阈值. 为了简化表示, 我们给输入变量增加一个 $x_{0} = 1$ 这样式子可以写成向量形式 $\vec{w} \cdot \vec{x} > 0$ ( $x, w \in R^{n+1}$ ), 进一步引入 $sign$ 函数, 上式化简为:

f (x) = s i g n (w \cdot x)

$f(x) = sign(w\cdot x )$

$sign$ 函数:

$s i g n (x) = {1, i f x > 0 - 1, o t h e r w i s e$ $sign(x) = \left\{\begin{matrix}1, if x > 0 \\-1, otherwise \end{matrix}\right.$

几何解释

为了方便说明, 这里将 $\vec{w} \cdot \vec{x}$ ( $x, w \in R^{n+1}$ )写作 $\vec{w} \cdot \vec{x} + b$ ( $x, w \in R^{n}$ ).

对于线性方程:

w ⃗ \cdot x ⃗ + b = 0

$\vec{w} \cdot \vec{x} + b = 0$

对应于特征空间 $R^{n}$ 中一个超平面 $S$ , $w$ 是超平面的法向量, $b$ 是超平面的截距. 这个超平面将特征空间划分为两个部分: 一类为正, 感知器输出 1 ; 一类为负, 感知器输出 -1. 此时超平面 $S$ 被称为分离超平面(separating hyperplane) 又称为超平面决策面. 如图 2.1 所示:

感知机模型

在数学中，超平面（Hyperplane）是 $n$ 维欧氏空间中余维度等于 $1$ 的线性子空间。这是平面中的直线、空间中的平面之推广。
设 $F$ 为域（为初等起见，可考虑 $F=\mathbb{R}）$ 。 $n$ 维空间 $F^{n}$ 中的超平面是由方程

$a 1 x 1 + \dots + a n x n = b$ $a_1 x_1 + \cdots + a_n x_n = b$
定义的子集，其中 $a_1, \ldots, a_n \in F$ 是不全为零的常数。
超平面 - 维基百科

为什么这么费劲的引入几何解释, 超平面的概念? 因为这对下面的损失函数的推导很有帮助, 而且最重要的是这个概念的引入令我对 $n$ 维空间的距离感变近了.

线性可分

应用感知机的数据集(训练样本集)必须完全线性可分, 线性可以指的是给定的数据集对所有的 $y_{i} = -1$ , 有 $\vec{w} \cdot \vec{x} + b < 0$ , 对所有的 $y_{i} = 1$ , 有 $\vec{w} \cdot \vec{x} + b > 0$ , 几何表示为超平面 $\vec{w} \cdot \vec{x} + b = 0$ 能够完全将数据集中的正负实例点分开. 那什么是线性不可分的? 举个例子异或逻辑(XOR).

既然提到异或逻辑, 感知机的一个应用就是用来表示原子布尔函数. 比如一个二输入的感知机就可以表示 AND 和 OR 逻辑. 感知机能表示 AND OR N 逻辑这一点很重要, 如果我们将他们互联, 两层深度的感知机便可以表示所有布尔函数. 我们现在使用的电脑就是由这些逻辑组合起来的.

感知机的学习策略

为了找出超平面, 即 $w, b$ 我们需要构造一个学习策略, 即定义经验损失函数并将其最小化.

损失函数的一个自然选择就是误分类的总数, 但是这样的损失函数不是参数 $w, b$ 的连续可导函数, 不方便优化. 所以我们选择误分类点到超平面 $S$ 的距离.

做数学之美妙

下面我们来推导这个损失函数

首先, 写出输入空间中任一点 $x_{i}$ 到超平面的距离

1 ∥ w ∥ | w \cdot x i + b |

$\frac{1}{\left \| w \right \|} | w \cdot x_{i} + b |$

$\left \| w \right \|$ 是 $w$ 的 $L_{2}$ 范数.

对于实数 $p ≥ 1$ , $p$ 范数定义为

$∥ x ∥ p = (| x 1 | p + | x 2 | p + \dots + | x n | p) 1 p .$ $\left\|x\right\|_{p}=\left(|x_{1}|^{p}+|x_{2}|^{p}+\dotsb +|x_{n}|^{p}\right)^{\frac {1}{p}}.$
当 $p = 2$ 即为 L2 范数, 又称欧几里得范数.

$∥ x ∥ 2 = (x 21 + x 22 + \dots + x 2 n) 1 2 .$ $\left\|x\right\|_{2}=\left(x_{1}^{2}+x_{2}^{2}+\dotsb +x_{n}^{2}\right)^{\frac {1}{2}}.$
值得注意的是, $p = 0$ 时有两个定义. 一个是数学定义, 另一个是函数. 我们在机器学习中用到的是后者, 即非零元素的总数:
$| x 1 | 0 + | x 2 | 0 + \dots + | x n | 0 .$ $|x_{1}|^{0}+|x_{2}|^{0}+\cdots +|x_{n}|^{0}.$
Lp space: #The p-norm in finite dimensions - wikipedia

然后, 由于损失函数需要始终大于 0 , 对误分类的数据 $(x_{i}, y_{i})$ 有

- y i (w \cdot x i + b) > 0

$-y_{i}(w \cdot x_{i} + b) > 0$

当 $w \cdot x_{i} + b > 0$ 时, $y_{i} = -1$ , 当 $w \cdot x_{i} + b < 0$ 时, $y_{i} = 1$

这里的 $y_{i}$ 为输出结果(假设输出)

因此, 误分类点 $x_{i}$ 到超平面 $S$ 的距离为

- 1 ∥ w ∥ y i (w \cdot x i + b)

$-\frac{1}{\left \| w \right \|}y_{i}(w \cdot x_{i} + b)$

这样, 假设超平面的误分类点集合为 $M$ , 那么所有误分类点到超平面的总距离为

- 1 ∥ w ∥ \sum x i \in M y i (w \cdot x i + b)

$-\frac{1}{\left \| w \right \|} \sum_{x_{i} \in M} y_{i}(w \cdot x_{i} + b)$

忽略 $\frac{1}{\left \| w \right \|}$ , 得到感知机学习的损失函数

L (w, b) = - \sum x i \in M y i (w \cdot x i + b)

$L(w, b) = -\sum_{x_{i} \in M} y_{i}(w \cdot x_{i} + b)$

损失函数 $L(w, b)$ 是非负的.没有误分类点时值为 $0$ , 误分类点越少, 误分类点离超平面越近, $L(w, b)$ 越小. 对于一个样本点, 误分类时是参数 $w, b$ 的线性函数, 正确分类时值为 0, 因此给定训练数据集 $T$ , 损失函数 $L(w, b)$ 是 $w, b$ 的连续可导函数.

感知机学习算法

分原始模式和对偶模式两种, 使用随机梯度下降方法.

感知机学习算法的原始形式

对参数 $w, b$ 的求解转化为求解

m i n w, b L (w, b) = - \sum x i \in M y i (w \cdot x i + b)

$\underset{w,b}{min} L(w, b) = -\sum_{x_{i} \in M} y_{i}(w \cdot x_{i} + b)$

极小化过程中不是一次使 $M$ 所有误分类点的梯度下降, 二是一次随机选取一个误分类点使其梯度下降.

假设误分类点集合 $M$ 是固定的, 那么损失函数 $L(w, b)$ 梯度由

▽ w L (w, b) = - \sum x i \in M y i x i

$\triangledown_{w} L(w, b) = -\sum_{x_{i} \in M}y_{i}x_{i}$

▽ b L (w, b) = - \sum x i \in M y i

$\triangledown_{b} L(w, b) = -\sum_{x_{i} \in M}y_{i}$

给出.

随机选取一个误分类点 $(x_{i}, y_{i})$ , 对 $w, b$ 进行更新

w \leftarrow w + η y i x i

$w \leftarrow w + \eta y_{i}x_{i}$

b \leftarrow b + η y i

$b \leftarrow b + \eta y_{i}$

$\eta (0< \eta \leq 1)$ 是步长, 又称学习率(leaning rate). 这样, 通过迭代可以使损失函数 $L(w, b)$ 不断减少, 直到为 0 .

关于 delta 法则, 梯度下降, 随机梯度下降将会另起另一篇

用最开始讲到的简化后的模型简化后的<统计学习方法>算法2.1:

$x_{i} = (1, x^{(1)}, x^{(2)}, ... , x^{(n)})^{T}$
$w_{i} = (w^{(0)}, w^{(1)}, w^{(2)}, ... , w^{(n)})^{T}$

输入: 训练数据集 $T= \{(x_{1}, y_{1}),(x_{1}, y_{1}),...,(x_{N}, y_{N})\}$ , 其中 $x_{i} \in X = R^{n+1}$ , $y_{i} \in Y = {+1, -1}, i = 1, 2, 3, ... , N$ 学习率 $\eta (0 < \eta \leq 1 )$
输出: $w$ ; 感知机模型 $f(x) = sign(w\cdot x )$

(1) 选取初值 $w$

(2) 在训练集中选取数据 $(x_{i}, y_{i})$

(3) 如果 $y_{i}(w \cdot x_{i}) \leq 0$

w \leftarrow w + η y i x i

$w \leftarrow w + \eta y_{i}x_{i}$

(4) 转至 (2) ,直至训练集中没有误分类点

直观解释是如果有了误分类则调整 $w$ 的值,使分离超平面向该误分类点的一侧移动, 以减少该误分类点与超平面的距离, 直至超平面越过该误分类点使其被正确分类.

留坑, 将例题 2.1 可视化

感知机学习算法的对偶形式

对偶形式, 指的是从不同的形式去解答一个问题, 但问题的解释一样的.

对偶形式的基本想法是, 将 $w$ 表示为实例 $x_{i}$ 和标记 $y_{i}$ 的线性组合的形式, 通过求解其系数而求得 $w$

在感知机学习算法的原始形式中, 对误分类点 $(x_{i}, y_{i})$ 逐步修改 $w$ , 设修改了 $n$ 次, 则 $w$ 关于 $(x_{i}, y_{i})$ 的增量记作 $\alpha_{i}y_{i}x_{i}$ , 其中 $\alpha_{i} = n_{i}\eta$ , 这样学习过程可以表示为

w = \sum i = 1 N α i y i x i

$w = \sum_{i=1}^{N} \alpha_{i}y_{i}x_{i}$

算法 2.2 (简化版原始形式的对偶形式)

输入: 训练数据集 $T= \{(x_{1}, y_{1}),(x_{1}, y_{1}),...,(x_{N}, y_{N})\}$ , 其中 $x_{i} \in X = R^{n+1}$ , $y_{i} \in Y = {+1, -1}, i = 1, 2, 3, ... , N$ 学习率 $\eta (0 < \eta \leq 1 )$
输出: $\alpha$ ; 感知机模型 $f(x) = sign(\sum_{j = 1}^{N}\alpha_{j}y_{j}x_{j}\cdot x )$ , 其中 $\alpha = (\alpha_{1},\alpha_{2}, ...,\alpha_{N})^{T}$

(1) $\alpha \leftarrow 0$

(2) 在训练集中选取数据 $(x_{i}, y_{i})$

(3) 如果 $y_{i}(\sum_{j = 1}^{N}\alpha_{j}y_{j}x_{j}\cdot x_{i} ) \leq 0$

α i \leftarrow α i + η

$\alpha_{i} \leftarrow \alpha_{i} + \eta$

(4) 转至 (2) ,直至训练集中没有误分类点

可以看到对偶形式中训练实例仅以内积的形式出现, 引入 Gram 矩阵形式储存实例间的内积

G = [x i \cdot x j] N \times N

$G = [x_{i} \cdot x_{j} ]_{N \times N }$

比如现在有 3 个实例点 $x_{1}, x_{2}, x_{3}$ 对应 $y_{1}, y_{2}, y_{3}$

G = ⎡ ⎣ ⎢ x 1 x 1 x 2 x 1 x 3 x 1 x 1 x 2 x 2 x 2 x 3 x 2 x 1 x 3 x 2 x 3 x 3 x 3 ⎤ ⎦ ⎥

$G = \begin{bmatrix} x_1x_1 & x_1x_2 & x_1x_3\\ x_2x_1 & x_2x_2 & x_2x_3\\ x_3x_1 & x_3x_2 & x_3x_3 \end{bmatrix}$

对算法第三步, 可以改写为

(3) 如果 $y_{i}(\sum_{j = 1}^{N}\alpha_{j}y_{j}G_{ji}) \leq 0$

$α i \leftarrow α i + η$ $\alpha_{i} \leftarrow \alpha_{i} + \eta$

参考

[1] 李航. 《统计学习方法》[M]. 北京：清华大学出版社，2012：25-35
[2] Tom M. Mitchell. 《机器学习》[M] 曾华军，张银奎等译. 北京：机械工业出版社，2015：63-69
[3] 超平面 - 维基百科
[4] Lp space: #The p-norm in finite dimensions - wikipedia

ASH9750

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
感知机

感知机（perceptron）是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别，取 +1 和 -1 二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习算法具有简
复制链接

扫一扫