第二章感知机

最新推荐文章于 2022-11-12 22:45:01 发布

lbf-523

最新推荐文章于 2022-11-12 22:45:01 发布

阅读量134

点赞数

分类专栏：统计学习方法文章标签：统计学习方法李航感知机

本文链接：https://blog.csdn.net/u012740100/article/details/80874315

版权

统计学习方法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第二章感知机

第二章感知机

感知机（preceptron）是二分类的线性模型，其输入为实例的特征向量，输出为实例的类别，去 $+1$ 和 $-1$ 。旨在求出将训练数据进行现行划分的分离超平面。

方法：导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。

模型

f (x) = s i g n (w \cdot x + b)

$f(x)=\mathrm{sign}(w·x+b)$

$w$ 和 $b$ 为模型参数， $w\in \mathbf R^n$ 叫作权值（weight）或权值向量（weight vector）， $b\in \mathbf R$ 叫作偏置（bias）， $w·x$ 标志 $w$ 和 $x$ 的内积。 $\mathrm{sign}$ 是符号函数，即：

s i g n (x) = {+ 1, - 1, x \geq 0 x < 0

$\mathrm{sign}(x)= \left \{ \begin{array}{rl} +1, &x\geq 0 \\ -1, &x<0 \end{array} \right.$
线性方程：

w⋅x+b=0 w · x + b = 0 $w·x+b=0$ ，对应于特征空间

Rn R n $\mathbf R^n$ 中的一个超平面

S S $S$ ，其中

w

$w$ 是超平面的法向量，

b b $b$ 是超平面的截距。

QQ截图20130410141720

策略

数据集的线性可分性：给定一个数据集

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
其中

xi∈X=Rn x i ∈ X = R n $x_i \in \mathcal{X}= \mathbf R^n$ ，

yi∈Y={+1,−1} y i ∈ Y = { + 1 , − 1 } $y_i \in \mathcal Y =\{+1,-1\}$ ，

i=1,2,...,N i = 1 , 2 , . . . , N $i=1,2,...,N$ ，如果存在某个超平面

S：w⋅x+b=0 S ： w · x + b = 0 $S：w·x+b=0$ ，能够正确将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，即对所有

yi=+1 y i = + 1 $y_i=+1$ 的实例

i i $i$ ，有

w \cdot x_{i} + b > 0

$w·x_i+b>0$ ，对所有

yi=−1 y i = − 1 $y_i=-1$ 的实例

i i $i$ ，有

w \cdot x_{i} + b < 0

$w·x_i+b<0$ ，则称数据集

T T $T$ 为线性可分数据集（linearly separable data set）;否则，称其为线性不可分。

感知机学习策略：

将损失函数极小化，步骤：

写出输入空间 $\mathbf R^n$ 中任意一点 $x_0$ 到超平面 $S$ 的距离：

$\frac{1}{‖ w ‖} | w \cdot x_{0} + b |$

其中 ∥w∥ 是 w 的范数。
- 对于误分类的数据 $(x_i,y_i)$ 来说，
  
  $- y i (w \cdot x i + b) > 0$ $-y_i(w·x_i+b)>0$
  成立。因为当 $w·x_i+b>0$ 时， $y_i=-1$ ，而当 $w·x_i+b<0$ 时， $y_i=+1$ 。因此，误分类点 $x_i$ 到超平面 $S$ 的距离为：
  $- \frac{1}{‖ w ‖} y_{i} (w \cdot x_{i} + b)$ $-\frac{1}{\|w\|}y_i(w·x_i+b)$
- 假设超平面 $S$ 的误分类点集合为 $M$ ，那么所有误分类点到超平面 $S$ 的距离为：
  
  $- \frac{1}{‖ w ‖} \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b)$ $-\frac{1}{\|w\|}\sum_{x_i \in M}y_i(w·x_i+b)$
  不考虑 $\frac{1}{\|w\|}$ ，就得到感知机学习的损失函数，即：
  
  $L (w, b) = - \sum x i \in M y i (w \cdot x i + b)$ $L(w,b)=-\sum_{x_i \in M}y_i(w·x_i+b)$
  $L(w,b)$ 是非负的，如果没有误分类，损失函数为0.
- 给定训练数据集 $T$ ，损失函数 $L(w,b)$ 是 $w,b$ 的连续可导函数。
  
  算法
  
  原始形式：
  输入：训练数据集 $T$ ，学习率 $\eta(0<\eta\le1)$ ；
  
  输出： $w,b$ ；感知机模型 $f(x)=\mathrm{sign}(w·x+b)$ .
  1. 选取初值 $w_0,b_0$
  2. 在训练集中选取数据 $(x_i,y_i)$
  3. 如果 $y_i(w·x_i+b) \leq 0$
    
    $w \leftarrow w + η y i x i b \leftarrow b + η y i$ $w\gets w+\eta y_i x_i \\ b\gets b+\eta y_i$
  4. 转至2.，直至训练集中没有误分类点。
  感知机学习算法由于采用不同的初值或选取不同的误分类点，解可以不同。
  收敛性：
  将偏置 $b$ 并入权重向量 $w$ ，记作 $\hat w =(w^T,b)^T$ ，同样也将输入向量加以扩充，加进常数1，记作 $\hat x =(x^T,1)^T$ .这样， $\hat x \in \mathbf R ^{n+1}, \hat w \in \mathbf R^{n+1}$ .显然， $\hat w · \hat x =w·x +b$ .
  
  Novikoff 定理：
  1. 存在满足条件 $\|\hat w_{opt}\|=1$ 的超平面 $\hat w_{opt} · \hat x =w_{opt}·x +b_{opt}=0$ 将训练数据集完全正确分开；且存在 $\gamma>0$ ，对所有 $i=1,2,3,...,N$
    
    $y i (w^o p t \cdot x^i) = y i (w o p t \cdot x i + b o p t) \geq γ$ $y_i(\hat w_{opt} · \hat x_i) =y_i(w_{opt}·x_i +b_{opt}) \geq \gamma$
  2. 令 $R=\max \limits_{1\leq i \leq N} \|\hat x_i\|$ ，则感知机算法在训练数据集上的误分类次数 $k$ 满足不等式
    
    $k \leq {(\frac{R}{γ})}^{2}$ $k \leq\left( \frac{R}{\gamma} \right) ^2$
  对偶形式：
  输入：训练数据集 $T$ ，学习率 $\eta(0<\eta\le1)$ ；
  
  输出： $\alpha,b$ ；感知机模型 $f(x)=\mathrm{sign}\left( \sum \limits_{j=1}^N \alpha_j y_j x_j·x+b \right)$ . 其中 $\alpha=(\alpha_1,\alpha_2,...,\alpha_N)^T$ .
  1. $\alpha \gets 0,\ b\gets 0$
  2. 在训练集中选取数据 $(x_i,y_i)$
  3. 如果 $y_i \left( \sum \limits_{j=1}^N \alpha_j y_j x_j·x_i+b \right) \leq 0$
    
    $α i \leftarrow α i + η b \leftarrow b + η y i$ $\alpha _i \gets \alpha_i + \eta \\ b \gets b+\eta y_i$
  4. 转至2.直到没有误分类数据.

lbf-523

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第二章感知机

第二章感知机第二章感知机模型策略算法感知机（preceptron）是二分类的线性模型，其输入为实例的特征向量，输出为实例的类别，去 +1+1+1 和 −1−1-1 。旨在求出将训练数据进行现行划分的分离超平面。方法：导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。模型f(x)=sign(w⋅x+b)f(x)=s...
复制链接

扫一扫