【ML学习笔记02】《统计学习方法》—ch02：感知机

最新推荐文章于 2024-09-14 21:53:48 发布

yierrrrr

最新推荐文章于 2024-09-14 21:53:48 发布

阅读量115

点赞数 1

分类专栏： ML学习笔记文章标签：学习机器学习人工智能

本文链接：https://blog.csdn.net/m0_71268863/article/details/126146544

版权

5 篇文章 0 订阅

订阅专栏

ch02：感知机

定义：
$f (x) = s i g n (w \cdot x + b)$
其中，w 和 b 为感知机模型参数。w 叫做权值（weight）或权值向量（weight vector），b 叫做偏置（bias）。w·x 表示 w 和 x 的内积，sign 是符号函数，即
$sign(x)=\begin{cases} +1,&x>=0\\ -1,&x<0 \end{cases}$
感知机的几何解释：线性方程

$w \cdot x + b = 0$

对应于特征空间中的一个超平面 S，其中 w 是超平面的法向量，b 是超平面的截距．这个超平面将特征空间划分为两个部分．位于两部分的点（特征向量）分别被分为正、负两类．因此，超平面 S 称为分离超平面（separating hyperplane）

如果存在某个超平面S能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，则称数据集T 为线性可分数据集（linearly separable data set）

假设训练数据集是线性可分的，感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面．为了找出这样的超平面，即确定感知机模型参数 w , b ，需要确定一个学习策略，即定义（经验）损失函数并将损失函数极小化．

感知机学习算法是求参数w，b，使其为损失函数极小化问题的解

输入： 训练数据集 T，学习率 η（步长）
输出： 参数 w，b；感知机模型 $f (x) = s i g n (w \cdot x + b)$
步骤：
（1）选取初值 w0，b0
（2）在训练集中选取数据（xi，yi）
（3）如果 $y_i(w·x_i+b)≤0$ ，也就是说该点是误分类点，参数更新：
$w\gets w+\eta y_ix_i\\b\gets b+\eta y_i$ （4）转至（2），直到训练集中没有误分类点
直观解释：
当一个实例点被误分类，即位于分离超平面的错误一侧时，则调整 w , b 的值，使分离超平面向该误分类点的一侧移动，以减少该误分类点与超平面间的距离，直至超平面越过该误分类点使其被正确分类

现证明，对于线性可分数据集感知机学习算法原始形式收敛，即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型

为便于推导，将将偏置b 并入权重向量w，将输入向量加以扩充，加进常数 1
$\hat w=(w^T,b)^T\\\hat x=(x^T,1)^T\\\hat w·\hat x=w·x+b$
定理（Novikoff）：设训练数据集T是线性可分的，其中输出只有1和-1，则
- 存在满足条件 $||{\hat w}_{opt}||=1$ 的超平面 $\hat w_{opt}·\hat x=0$ 可将T完全正确分开，且存在 γ>0，对所有的实例都有
  $y_i(\hat w_{opt}·\hat x_i)\ge γ$
  
  这里γ表示的一个正的下限，代表着计算精度
- 令 $R=\underset{1≤i≤N}{max}||\hat x_i||$ ，则感知机算法 $f (x) = s i g n (w \cdot x + b)$ 在训练数据集上的误分类次数k满足不等式
  $k\le(\frac Rγ)^2$
  
  即我们通过有限次的迭代就可以得到正确结果
证明：（先跳过了。。。）

对偶形式的基本想法是，将w和b表示为实例 xi 和标记 yi 的线性组合的形式，通过求解其系数而求得 w 和 b

在原始形式中，是逐步修改 w 和 b ，设每个实例点修改了 ni 次，那么对于 w 来说，它的增量是 ni·η·yi·xi，b 的增量就是 ni·η·yi，我们设 α=ni·η，那么，最后学习到的 w 和 b 可以分别表示为：
$w=\sum^N_{i=1}α_iy_ix_i\\b=\sum^N_{i=1}α_iy_i$

可以发现，实例点更新次数越多，意味着它离分离超平面越近，也就越难被正确分类，换句话说，这样的实例对学习结果影响最大
输入： 训练数据集 T，学习率 η（步长）
输出： α，b；感知机模型 $f(x)=sign(\sum^N_{j=1}α_jy_jx_j·x+b)$
步骤：
（1）选取初值 α，b 为0
（2）在训练集中选取数据（xi，yi）
（3）如果 $y_i(\sum^N_{j=1}α_jy_jx_j·x_i+b)≤0$ ，也就是说该点是误分类点，参数更新：
$α_i\gets α_i+\eta\\b\gets b+\eta y_i$ （4）转至（2），直到训练集中没有误分类点
观察（3）中的迭代条件，可以发现训练实例仅以内积的形式出现．为了方便，可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储，这个矩阵就是所谓的 Gram 矩阵（Gram matrix）
$G=[x_i,x_j]_{N\times N}$