感知机

最新推荐文章于 2024-02-19 11:00:00 发布

一颗磐石

最新推荐文章于 2024-02-19 11:00:00 发布

阅读量2.8k

点赞数

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/Just_do_myself/article/details/107563483

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

感知机

感知机模型
感知机学习策略
感知机学习算法
- 原始形式
- 对偶形式

感知机模型

感知机是用于二分类的线性分类模型，属于判别模型，其输入空间是样本实例地特征向量，输出是集合 $Y = [+ 1, - 1]$ 。从几何视角出发，感知机旨在特征空间中学习一个将正负样本分开的分离超平面。确定模型地形式之后，引入经验风险和结构风险，将分类问题转变为最优化问题，利用梯度下降的算法求得参数向量，获取感知机模型。感知机模型是神经网络和支持向量机的基础
下面将二分类问题抽象到代数层面上来，如下：
假设输入空间是 $X∈R^n$ ,输出空间是 $Y = [+ 1, - 1]$ ， $x_i∈X$ 表示输入空间中的实例，对应输出空间的 $y_i∈Y$ 是实例 $x_i$ 对应的类别，则设定
$f (x) = s i g n (ω \times x + b)$
为感知机模型。
其中 $ω$ 为权值向量， $ω$ 为实例的特征向量， $b$ 为偏置，此处 $ω \times x$ 表示的是 $ω$ 和 $x$ 的内积。 $s i g n$ 是符号函数。
经过以上抽象之后，我们便可以完成统计学习方法的第一步(确定假设空间，也就是模型集合)。其中假设空间为：
${f|f(x)=ω×x+b}]$
更形象一些，我们再把感知机模型从代数域抽象到几何域。上边我们得到代数方程：
$ω \times x + b = 0$
先从二维说起，如果 $ω$ 和 $x$ 都是常数，则 $ω \times x + b = 0$ 表示的是一条直线；在三维里呢， $ω$ 和 $x$ 都是一个二维向量，则 $ω \times x + b = 0$ 表示的是一个平面；在这里我们的 $ω$ 和 $x$ 分别是高维权值向量和高维特征向量，那么 $ω \times x + b = 0$ 表示的是高维空间的一个超平面。该超平面可以在特征空间内将正负两类样本分开来，达到分类的目的。下图在二维空间中给我们展示了感知机模型的几何机制。
二维空间示例

感知机学习策略

确定感知机模型之后，我们的第二个任务就是制定学习策略，即确定一个评价标准在假设空间中选出性能最好的模型。那么怎么确定这个评价标准呢？其实就是定义一个包含经验风险和结构风险的函数，并将该函数极小化。
在感知机模型中，如果直接用误分类的样本数来作为评价标准，无法对 $ω$ 和 $b$ 应用梯度下降法求得最佳参数。所以在这里我们采用误分类点到超平面的距离总和。首先定义以下输入空间 $R^n$ 中任意一点 $x_i$ 到超平面的距离为：
$\frac{1}{||ω||}|ω×x_i + b|$
其中 $∣ ∣ ω ∣ ∣$ 是 $ω$ 的 $L_2$ 范数。
当样本点 $y_i$ =-1时，被误分类之后 $ω×x_i + b$ ＞ 0；
当样本点 $y_i$ =1时，被误分类之后 $ω×x_i + b$ ＜ 0；
即被误分类之后，- $y_i$ $ω×x_i + b)$ ＞ 0。
那么误分类点到超平面的距离总和为：
$-\frac{1}{||ω||}\sum_{i=1}^{M}y_i(ω×x_i + b)$
因为 $\frac{1}{||ω||}$ 是常数，所以无关紧要，我们去掉它，那么剩下的就是经验风险：
$-\sum_{i=1}^{M}y_i(ω×x_i + b)$
可以看到，误分类点越少，经验风险越小，误分类点到超平面的距离越近，经验风险越小。正好可以衡量模型的分类性能好坏。
**注：上述经验风险函数是ω和b的连续可导函数。**强调这点的目的是我们下边的算法使用的是梯度下降法，要用经验风险对 $ω$ 和 $x$ 求导。

感知机学习算法

经过上述确定假设空间、评价准则两步之后，就到了设计算法的时候了。感知机学习算法采用随机梯度下降法，这也是各种神经网络使用的算法。在感知机模型中，我们分为两种形式：原始形式和对偶形式。

原始形式

给定输入：训练数据集 $T=[(x_1, y_1), (x_2, y_2), ... , (x_n, y_n),]$ ，其中 $x_i∈R^n, y_i∈[+1, -1]，i=1, ... ,n$ ，学习率 $η \in [0, 1]$ ；
输出： $ω, b$
学习步骤：

选取初始值 $ω_0，b_0$ ;
在训练集T中选取数据 $x_i, y_i)$ ，计算 $y_i(ω×x_i + b)$ ；
如果 $y_i(ω×x_i + b)$ ≤ 0，则进行如下迭代更新：
$ω = ω + ηy_ix_i ； b = b + ηy_i$
跳到步骤2，直到数据集中所有数据点都被正确分类；

注：感知机模型有很多解，最终模型依赖于初始值的选取，也依赖于迭代过程中选取样本的顺序，还有就是当训练数据集线性不可分时，算法会一直迭代，陷入死循环。

对偶形式

从原始形式步骤3中的迭代中观察到，我们可以将 $ω 和 b$ 看作实例 $x_i和y_i$ 的线性组合，那么我们只需要求解出该线性组合的系数，便可求得 $ω 和 b$ 。
公式化表示为：
$\sum_{i=1}^{n}α_iy_ix_i ； b = \sum_{i=1}^{n}α_iy_i$
这里 $α_i=N_iη$ ，其中当 $η = 1$ 时， $N_i$ 就是该样本迭代的次数。
给定输入：训练数据集 $T=[(x_1, y_1), (x_2, y_2), ... , (x_n, y_n),]$ ，其中 $x_i∈R^n, y_i∈[+1, -1]，i=1, ... ,n$ ，学习率 $η \in [0, 1]$ ；
输出： $N_i$ ，求得$N_i之后，我们就可以根据上边的公式计算出ω和b

初始化 $α = 0 和 b = 0$ ；
在训练集中选择样本 $x_i, y_i)$ ，计算 $y_i (\sum_{j=1}^{n}α_jy_jx_jx_i+b)$ ；
如果 $y_i (\sum_{j=1}^{n}α_jy_jx_jx_i+b)≤0$ ，则更新如下：
$α_i = α_i + η；b = b + ηy_i$
4.重复步骤2，直到所有的样本都被正确分类。