【机器学习】《统计学习方法》学习笔记第二章感知机

最新推荐文章于 2023-09-27 10:56:52 发布

Altair_Alpha_

最新推荐文章于 2023-09-27 10:56:52 发布

阅读量113

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Altair_alpha/article/details/119809897

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

第二章　感知机

二分类线性模型，输入实例的特征向量，输出+1，-1二值代表的类别。
公式： $sign(\omega \cdot x + b)$ ， $s i g n (x)$ 函数将正负值规约到±1。
本质是用一个 $N$ 维的超平面将特征空间划分为正负两部分。 $\omega, b$ 就是超平面的法向量和截距。
损失函数：误分类的点个数不是 $\omega, b$ 的连续可导函数，不易优化。采用误分类点到超平面 $S$ 的总距离。空间中任意一点到 $x 0$ 到 $S$ 的距离： $\frac{1}{\|\omega\|}\vert\omega \cdot x + b\vert$
又对于误分类的数据，有 $\vert\omega \cdot x_i + b\vert$ 与 $y_i$ （±1）异号，故可以通过乘 $y_i$ 去掉绝对值，再对全体误分类点求和，忽略系数，得到感知机学习的损失函数： $L(\omega,b) = -\sum_{x_i \in M}y_i(\omega \cdot x_i + b)$
其中 $M$ 为误分类点的集合。
导数：一元函数 $y = f (x)$ 在某一点沿 $x$ 轴正方向的变化率（一个值）；

偏导数：多元函数沿某个轴正方向的变化率（一个值）；

方向导数：函数沿任意方向的变化率（一个值）；

梯度：函数在空间中变化率最大的方向，是一个向量，记作 $\nabla f$ 。这个方向在每个轴上的分量就是沿该轴的偏导数。
对于我们的最优化问题，可以将参数 $\omega, b$ 和损失函数的取值对应为一个三维空间的 $x, y, z$ 轴，我们要找出“山”上海拔最低的位置。从任意点出发，每次计算“下山”最快的梯度方向，然后向该方向前进一小步，不断迭代直至损失函数减小至0。每次前进的距离称为步长（或学习率）。
$L$ 关于 $\omega, b$ 的偏导分别为 $\nabla_{\omega}L(\omega, b) = - \sum_{x_i \in M}y_ix_i \\ \nabla_{\omega}b(\omega, b) = - \sum_{x_i \in M}y_i$
每次随机选一个误分类点，依据该点数据对参数进行更新： $\omega \leftarrow \omega + \eta y_i x_i \\ b \leftarrow b + \eta y_i$
由此得到感知机学习算法的原始形式：
1. 选取初值 $\omega_0, b_0$ ；
2. 在训练集中选取数据 $x_i, y_i)$ ；
3. 如果 $y_i(\omega \cdot x_i + b \leq 0)$ , 使用上面的公式更新 $\omega, b$ ；
4. 转至2，直至训练集中没有误分类点。
可以证明（P42），误分类次数有上界，经过有限次搜索可以找到将训练数据完全正确分开的超平面。
感知机学习算法的对偶形式：由 $\omega, b$ 的更新公式可知，假设一个点 $x_i$ 被使用（误分类）了 $n_i$ 次，令 $a_i = n_i \eta$ 则最终学习到的 $\omega, b$ 可以用以下形式代替： $\omega = \sum_{i=1}^N a_i y_i x_i \\ b = \sum_{i=1}^N a_i y_i$
于是问题转变为对变量 $a_i(n_i)$ 的学习。算法：
1. $\alpha \leftarrow 0, b \leftarrow 0$ ；
2. 在训练集中选取数据 $x_i, y_i)$ ；
3. 如果 $y_i \left (\sum\limits_{j=1}^N \alpha _j y_j x_j \cdot x_i + b \right) \leq 0$ ，更新：
  $\alpha_i \leftarrow \alpha_i + \eta \\ b \leftarrow b + \eta y_i \\ (or: \ n_i \leftarrow n_i + 1)$
4. 转至2，直到没有误分类数据。
结果上与原始形式是等价的，主要作用是可以通过预计算实现效率提升。原始形式中，判断分类正误的公式中 $\omega \cdot x_i$ 内积计算复杂度为 $O (n)$ ，其中 $n$ 为特征空间维数；而对偶形式中由于内积均以 $x_i \cdot x_j$ 形式出现，故可以预先计算出所有组合，形成一个对称/三角矩阵（Gram矩阵），复杂度由求和项决定，即 $O (N)$ ，转移到了训练集大小 $N$ 上。对于训练数据量远小于特征空间维数的数据集，该方法可以有效提升效率。