【统计学习方法】感知机笔记

最新推荐文章于 2024-02-17 23:13:21 发布

VariableX

最新推荐文章于 2024-02-17 23:13:21 发布

阅读量187

点赞数 1

分类专栏：机器学习基础文章标签：机器学习算法

本文链接：https://blog.csdn.net/VariableX/article/details/105869337

版权

机器学习基础专栏收录该内容

29 篇文章 20 订阅

订阅专栏

文章目录

感知机模型
感知机损失函数
感知机参数学习
- 学习算法的原始形式
- 学习算法的对偶形式

感知机是用于二分类的线性模型，输入是实例的特征，输出是类别。感知机模型目标是找到将数据线性划分的分离超平面。

感知机模型

假设输入空间为： $\mathcal X\sube \bf R^n$ ，输出空间为： $\mathcal Y=\{+1,-1\}$ ，且有 $\in \mathcal X, y \in \mathcal Y$ 。感知机的模型如下：
$(w\cdot x+b)$
其中sign是指示函数：
$\begin{cases} 0,\qquad x \geq 0 \\1, \qquad x < 0\end{cases}$
训练完成后的感知机模型为下面的线性方程：
$w\cdot x+b=0$
上面的公式表示一个划分超平面：

在这里插入图片描述

w是超平面的法向量，b是超平面的截距。感知机的目标就是找到合适的参数w和b，使得划分超平面可以区分正负两个类别。

感知机损失函数

假定有数据集如下：
$T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}\\ x_i\in \mathcal X=\mathbf R^n, y_i\in \mathcal Y\it =\{-1,+1\}, i=1,2,\dots,N; \ \ 0<\eta\leqslant 1$
若训练集线性可分，损失函数可以用所有误分类点到超平面S的总距离表示。对某个样本而言，到超平面的距离为：
$\frac{1}{||w||}|w\cdot x_0 + b|$
对于误分类点，总有 $w\cdot x_0 + b$ 与 $y_i$ 符号相反，故有：
$-y_i(w\cdot x_0 + b)>0$
进而可以得到误分类点到超平面的距离：
$-\frac{1}{||w||} y_i(w\cdot x_0 + b)$
假设误分类点构成集合M，则误分类点到超平面的距离之和为：
$-\frac{1}{||w||}\sum_{x_i\in M}y_i(w\cdot x_i+b)$
令 $∣ ∣ w ∣ ∣ = 1$ ，得到损失函数：
$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$

感知机参数学习

学习算法的原始形式

目标是找到最佳的参数w，b，使得损失函数最小化：
$\min\limits_{w,b} L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$
可以采用随机梯度下降法来优化参数，首先需要求w和b的偏导数：
$\frac{\partial L(w,b)}{\partial w} = -\sum_{x_i \in M} x_i y_i\\ \frac{\partial L(w,b)}{\partial b} = -\sum_{x_i \in M} y_i$
然后更新参数，其中 $\eta$ 为学习率：
$w\leftarrow w+\eta y_ix_i \\ b\leftarrow b+\eta y_i$
算法流程如下：

输入： $T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}\\ x_i\in \mathcal X=\mathbf R^n , y_i\in \mathcal Y\it =\{-1,+1\}, i=1,2,\dots,N; \ \ 0<\eta\leqslant 1$

输出： $w,b;f(x)=sign(w\cdot x+b)$

1，选取初值 $w_0,b_0$

2，训练集中选取数据 $x_i,y_i)$

3，如果某个样本误分类了，即 $y_i(w\cdot x_i+b)\leqslant 0$ ，则更新参数：
$w\leftarrow w+\eta y_ix_i \\ b\leftarrow b+\eta y_i$
4，转至(2)，直至训练集中没有误分类点

学习算法的对偶形式

上面的原始学习算法，我们通过以下方式更新参数：
$w\leftarrow w+\eta y_ix_i \\ b\leftarrow b+\eta y_i$
由于我们把w和b都初始化为0，所以每次更新w和b实际上都是在对 $\eta y_ix_i$ 和 $\eta y_i$ 的累加。对偶形式的基本思想是，用实例 $x_i$ 和标记 $y_i$ 来表示w和b。对于某个误分类的样本i，可能需要 $n_i$ 次对w,b的迭代才能使之正确分类，令 $\alpha_i = n_i\eta$ 则有：
$\sum_{i=1}^Nn_i\eta y_i x_i = \sum_{i=1}^N\alpha_i y_i x_i \\ b = \sum_{i=1}^Nn_i\eta y_i = \sum_{i=1}^N\alpha_i y_i$
上面的式子就能够仅仅用 $x_i$ 和标记 $y_i$ 的线性组合来表示w和b，于是算法流程更新为：

输入： $T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}\\ x_i\in \mathcal{X}=\mathbf{R}^n , y_i\in \mathcal{Y} =\{-1,+1\}, i=1,2,\dots, N; 0< \eta \leqslant 1$