《统计学习方法》学习笔记——第2章感知机

最新推荐文章于 2022-08-25 15:13:37 发布

Jellyfish733

最新推荐文章于 2022-08-25 15:13:37 发布

阅读量336

点赞数 1

分类专栏：统计学文章标签：感知机

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_37816910/article/details/79600431

版权

统计学专栏收录该内容

2 篇文章 0 订阅

订阅专栏

2.1 感知机模型

1、感知机的定义：假如输入空间（特征空间）是 $\chi \subseteq R^{n}$ ,每一维表示一个特征，输出空间是 $y \subseteq \left \{ +1,-1 \right \}$ ，输入 $x\subseteq \chi$ 表示实例的特征向量，对应于输入空间（特征空间）的点，输出 $y\subseteq Y$ 表示实例的类别。由输入空间到输出空间的函数：

$f(x) =sign(w\cdot x+b)$

( $w\cdot x$ 是内积， $w$ 是权值\权重向量，b是偏置）

成为感知机。它是一种线性分类器。

2、 $w\cdot x+b=0$ 是特征空间的分离超平面，位于超平面不同的两部分的特征向量被分为正、负类。

2.2 感知机学习策略

1、数据集的线性可分性

给定一个数据集T，如果存在某个超平面能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，则T为线性可分数据集。

样本集线性可分的充分必要条件是正实例点集所构成凸壳与负实例点所构成的凸壳互不相交。

2、感知机学习策略

1）损失函数的选择——误分类点到超平面S的总距离。

2）感知机学习的损失函数（=经验风险函数）为：

$L(w,b)=-\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b)$

它是w,b的连续可导函数。

2.3 感知机学习算法

是基于随机梯度下降法的对损失函数的最优化算法

1、感知机学习算法的原始形式

1）算法

输入：训练数据集T，学习率 $\eta (0<\eta \leqslant 1)$ 。

输出：w,b；感知机模型 $f(x) =sign(w\cdot x+b)$ 。

过程：①选取初值 $w_{0},b_{0}$

②在训练集中选取数据 $(x_{i},y_{i})$

③如果 $y_{i}(w\cdot x_{i}+b)\leqslant 0$

$w\leftarrow w+\eta y_{i} x_{i}$

$b\leftarrow b+\eta y_{i}$

（更新的思想：如果+1误判为-1，,将w和xi的角度减小，即向量相加；如果-1误判为+1，将w和xi的角度增大，即向量相减）

④转至②，直至训练集中没有误分类点。

2）直观解释：当一个实例点被误分类，即位于分离超平面的错误的一侧时，则调整w,b的值，使分离超平面向误分类点的一侧移动，以减少该误分类点与超平面的距离，直至超平面越过该误分类点使其被正确分类。

3）感知机学习算法由于采用不同的初值或选取不同的误分类点，解存在无穷多个。

2、算法的收敛性

Novikoff定理：设训练集T是线性可分的，则

1）存在满足条件 $\left \| \widehat{w_{opt}} \right \|=1$ 的超平面 $\widehat{w_{opt}} \cdot \widehat{x}=w_{opt}\cdot x+b_{opt}=0$ 将训练数据集完全正确分开；且存在 $\gamma >0$ ,对所有i=1,2,...,N

$y(\widehat{w_{opt}} \cdot \widehat{x})=y_{i}()w_{opt}\cdot x+b_{opt})\geqslant \gamma$

2）令 $R =\underset{1\leqslant i\leqslant N}{max }\left \| \widehat{x_{i}} \right \|$ ，则感知机算法在训练数据集上的误分类次数k满足不等式

$k\leqslant (\frac{R}{\gamma })^{2}$

3、感知机学习算法的对偶形式

1）基本思路：将w和b表示为实例xi 和标记yi的线性组合的形式，通过求解其系数而求得w和b。

2）算法

输入：训练数据集T，学习率 $\eta (0<\eta \leqslant 1)$ ；

输出：a,b；感知机模型 $f(x)=sign(\sum_{j=1}^{N}a_{j}y_{j}x_{j}\cdot x+b)$ ，其中 $a =(a_{1},a_{2},...,a_{N})^{T}$

① $a\leftarrow 0,b\leftarrow 0$

②在训练集中选取数据 $(x_{i},y_{i})$ 【可以预先把训练集中实例间的内积计算出来并以Gram矩阵存储】

③如果 $y_{i}(\sum_{j=1}^{N}a_{j}y_{j}x_{j}\cdot x+b)\leqslant 0$

$a\leftarrow a_{i}+\eta$

$b\leftarrow b+\eta y_{i}$

④转至②直到没有误分类数据

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。