统计学习方法第2章感知机

最新推荐文章于 2024-02-16 00:00:14 发布

NelsonCheung

最新推荐文章于 2024-02-16 00:00:14 发布

阅读量134

点赞数

分类专栏：统计学习方法文章标签：机器学习

本文链接：https://blog.csdn.net/NelsonCheung/article/details/114259987

版权

统计学习方法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第2章感知机

感知机(perceotron)是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1，-1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。

模型

定义 2.1（感知机）：假设输入空间是 $R^n$ ，输出空间是 ${-1,+1\}$ ，从输入空间到输出空间的函数 $f (x)$
$f(x)=\text{sign}(\vec{w}\cdot\vec{x}+b)$
被称为感知机。其中， $\vec{w},b$ 被称为感知机模型参数， $\vec{w}\in R^n$ 被称为权值向量或权值， $b\in R$ 被称为偏置， $\text{sign}$ 是符号函数。

在几何表示中，对于给定的 $\vec{w},b$ ，线性方程 $\vec{w}\cdot\vec{x}+b=0$ 对应于特征空间 $R^n$ 的超平面。容易证明， $\vec{w}$ 是这个超平面的法向量， $\vec{w}\cdot\vec{x}+b>0$ 对应于 $\vec{w}$ 指向的一侧， $\vec{w}\cdot\vec{x}+b<0$ 对应于 $-\vec{w}$ 指向的一侧。因此，这个超平面将特征空间划分为两个部份，所以可以被用于解决分类问题。

感知机通过学习训练数据集
$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$
得到模型参数 $\vec{w},b$ ，然后通过 $f (x)$ 来预测新的输入实例，最终得到其输出类别。

学习策略

线性可分：如果存在某个超平面 $S$ 将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，那么就称该数据集为线性可分数据集，否则称其为线性不可分数据集。

在感知机的学习策略中，其定义经验损失函数并将其最小化，最终得到模型参数 $\vec{w},b$ ，如下所示。

假设输入的数据集为 $T$ ，感知机对应的超平面记为 $S$
$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}\\ x_i\in R^n,\ y_i\in\{-1,+1\},\ i=1,2,\cdots,N\\ S=\{\vec{x}|\vec{w}\cdot\vec{x}+b=0\}$
容易证明，输入空间中任一点到超平面的距离为
$\frac{|\vec{w}\cdot\vec{x}+b|}{||\vec{w}||}$
对于误分类的数据 $x_i,y_i)$ 来说，我们有
$-y_i(\vec{w}\cdot{x}+b)>0$
假设所有的误分类点的集合为 $M$ ，那么所有误分类点到超平面的距离之和为损失函数 $L(\vec{w},b)$
$L(\vec{w},b)=-\sum_{x_i\in M}y_i(\vec{w}\cdot\vec{x_i}+b)$
其中不考虑 $\frac{1}{||\vec{w}||}$ 。

感知机的学习策略是在假设空间中选择使 $L(\vec{w},b)$ 达到最小的模型参数 $w, b$ 。

学习算法

感知机的学习问题实际上是损失函数 $L (w, b)$ 的最优化问题。

原始形式

采用随机梯度下降法来优化函数 $L (w, b)$ 。在极小化的过程中，不是一次使 $M$ 中所有的误分类点的梯度下降，而是一次随机一个误分类点，使其梯度下降，更新方法如下
$w=w+\eta y_ix_i\\ b=b+\eta y_i$
其中， $\eta$ 是步长，又被称为学习率。

算法 2.1 感知机算法的原始形式

输入：训练数据集 $T$ ，学习率 $\eta\in(0,1]$

输出： $w, b$

选定初值 $w_0,b_0$
在训练集中选取数据 $x_i,y_i)$
如果 $y_i(w\cdot x_i+b)\le 0$ ，则更新 $w, b$
$w=w+\eta x_iy_i\\ b = b+\eta y_i$
转2，直到训练集中没有误分类点。

对偶形式

不失一般性，在算法 2.1中可假设初始值 $w_0,b_0)$ 的值均为0，设 $w, b$ 关于 $x_i,y_i)$ 的增量为 $\alpha_iy_ix_i$ 和 $\alpha_iy_i$ 。其中， $\alpha_i=n_i\eta$ ， $n_i$ 是数据点 $x_i,y_i)$ 被选为误分类点来更新 $w, b$ 的次数。此时， $w, b$ 可表示如下。
$w=\sum_{i=1}^N\alpha_iy_ix_i\\ b=\sum_{i=1}^N\alpha_iy_i$
由此得到感知机算法的对偶形式。

输入：训练数据集 $T$ ，学习率 $\eta\in(0,1]$

输出： $\alpha,b$ ，感知机模型 $f(x)=\text{sign}(\sum_{j=1}^N\alpha_jy_jx_j\cdot x+b)$

$\alpha=0,b=0$
在训练集中选取 $x_i,y_i)$
如果 $y_if(x_i)\le 0$
$\alpha_i=\alpha_a+\eta\\ b=b+\eta y_i$
转2，直到没有误分类数据。

NelsonCheung

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法第2章感知机

第2章感知机感知机(perceotron)是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1，-1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。模型定义 2.1（感知机）：假设输入空间是RnR^nRn，输出空间是{−1,+1}\{-1,+1\}{−1,+1}，从输入空间到输出空间的函数f(x)f(x)f(x)f(x)=sign(w⃗⋅x⃗+b)f(x)=\text{sign}(\vec{w}\cdot\vec{x}+b)f(x)=
复制链接

扫一扫