(二)统计学习方法--感知机

最新推荐文章于 2024-08-15 23:39:34 发布

ice_521

最新推荐文章于 2024-08-15 23:39:34 发布

阅读量69

点赞数

分类专栏：统计学习方法文章标签：机器学习分类人工智能

本文链接：https://blog.csdn.net/ice_521/article/details/121154090

版权

统计学习方法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文深入探讨了感知机作为二分类线性模型的基本原理，包括其几何解释、学习策略和损失函数。通过梯度下降法进行优化，详细阐述了感知机的学习算法过程，并给出一个具体的样例说明。此外，还提及了收敛性证明和对偶形式的后续补充内容。

摘要由CSDN通过智能技术生成

(二)统计学习方法–感知机

感知机是二分类的线性分类模型，属于判别模型

感知机模型

感知机定义如下:
$sign(w\cdot x + b)$
其中 $x$ 为输入(特征)， $w$ 为权值, $b$ 为偏置, $s i g n$ 为符号函数:
$\operatorname{sign}(y)= \begin{cases}+1, & y \geqslant 0 \\ -1, & y<0\end{cases}$

输入维数为2时的几何解释:
感知机模型
线性方程 $w\cdot x + b=0$ 对应于一个超平面 $S$ ,其中 $w$ 是超平面的法向量, $b$ 是超平面的截距。
当维数为2维时，上述方程可以展开为下式:

$w_1x_1+w_2x_2 + b=0$

由上图可以得到一个直观的理解，假定 $w_2>0$ ,当 $x_1,x_2)$ 满足 $w_1x_1+w_2x_2 + b=0$ 时， $x_1,x_2)$ 会落在 $w_1x_1+w_2x_2 + b=0$ 这一直线上；当 $x_1,x_2)$ 满足 $w_1x_1+w_2x_2 + b>0$ 时， $x$ 会落在 $w_1x_1+w_2x_2 + b=0$ 这一直线的上方区域,即用圆点表示的样本点；反之则落入下方用叉号表示的样本点区域。

感知机学习策略

这里规定分类正确时， $w\cdot x_i +b>0$ 对应 $y_i=+1$ ,反之 $y_i=-1$

损失函数首先能想到是最小化误分类点的总数，但是这种损失函数通常是离散的形式，不可导，不容易优化。所以这里考虑另一种损失函数，即最小化误分类点到超平面 $S$ 的总距离。

输入空间任一点 $x_0$ 到超平面 $S$ 的距离:
$\frac{|w\cdot x_0 +b|}{||w||_2}$

其中 $w||_2$ 为 $w$ 的 $L_2$ 范数， $||w||_2 = \sqrt{w_1^2+w_2^2+\dots +w_n^2}$ .

对于误分类的点来说， $w\cdot x_i +b>0$ 对应 $y_i=-1$ ，反之 $y_i=+1$ 。所以可得:
$-y_i(w\cdot x_i + b)>0$

所以我们可以将距离公式分子的绝对值去掉，得到误分类点到超平面的距离:
$\frac{-y_i(w\cdot x_i + b)}{||w||_2}$
所有误分类点到超平面 $S$ 的总距离为:
$\sum \frac{-y_i(w\cdot x_i + b)}{||w||_2}$
因为 $∣ ∣ w ∣ ∣$ 对于所有样本点对应的距离来说取值相同，所以最小化误分类点到超平面距离也可以等价为:
$\quad L(w,b) = min \quad \sum -y_i(w\cdot x_i + b)$

(在实际编程中其实只考虑该式是否小于等于0)

感知机学习算法

通过上述内容将感知机问题转换为优化问题，接下来对优化问题进行求解，求解方法采用梯度下降法。

梯度下降法可以简单理解为通过求解损失函数的梯度来找到损失函数取值下降最快的方向，然后进行不断的迭代，最终使得损失函数取值达到最小，这时所对应的参数取值即为我们所需的参数估计值。

损失函数 $L (w, b)$ 的梯度:
$\frac{\partial L(w,b)}{\partial w} = -\sum y_ix_i$
$\frac{\partial L(w,b)}{\partial b} = -\sum y_i$

接下来随机选取一个误分类点 $x_i,y_i)$ ,对 $w, b$ 进行更新:
$w\leftarrow w+\eta y_ix_i$
$b\leftarrow b+\eta y_i$
其中 $\eta\in (0,1]$ 是学习率，是一个可以人为调整的超参数。这样通过迭代可以使得损失函数不断减小直到收敛。