机器学习笔记——感知机和统计学习方法(二)

最新推荐文章于 2024-07-26 11:48:52 发布

风雪云侠

最新推荐文章于 2024-07-26 11:48:52 发布

阅读量166

点赞数

分类专栏：机器学习文章标签：机器学习笔记

本文链接：https://blog.csdn.net/weixin_40426830/article/details/103120497

版权

机器学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

感知机和统计学习方法

感知机

1、输入为实例的特征向量，输出为实例的类别，取+1和-1；
2、感知机对应于输入空间中将实例划分为正负两类的分离超平面，属于判别模型；
3、导入基于误分类的损失函数；
4、利用梯度下降法对损失函数进行极小化；
感知机学习算法具有简单而易于实现的优点，分为原始形式和对偶形式；1957年由Rosenblatt提出，是神经网络与支持向量机的基础。

定义(感知机):

假设输入空间(特征空间)是 $X\subseteq R^{n}$ ,输出空间是 $y=\{+1,-1\}$ .
输入 $\in X$ 表示实例的特征向量，对应于输入空间（特征空间）的点，输出 $\in Y$ 表示实例的类别，由输入空间到输出空间的函数：
$\bullet x+b)$
称为感知机。模型参数：w x，内积，权值向量，偏置，符号函数：
$\begin{cases} +1,x\geq 0 \\ 1, x<0 \end{cases}$

感知机几何解释：

线性方程： $\bullet x+b=0$
对应于超平面S，w为法向量，b截距，分离正、负类：
分离超平面：
在这里插入图片描述

感知机学习策略

如何定义损失函数？
自然选择：误分类点的数目，但损失函数不是w,b 连续可导，不宜优化。
另一选择：误分类点到超平面的总距离：
距离：
$\frac{1}{||w||}|w\bullet x_{0}+b|$
误分类点:当 $\ge0$ 时， $y = - 1$ ,当 $x < 0$ 时， $y = 1$ .
$-y_{i}(w \bullet x_{i}+b)>0$
误分类点距离：
$-\frac{1}{||w||}y_{i}(w\bullet x_{i}+b)$
总距离：
$-\frac{1}{||w||}\sum_{x_{i} \in M}y_{i}(w\bullet x_{i}+b)$
损失函数：
$L(w,b)=-\sum_{x_{i} \in M}y_{i}(w\bullet x_{i}+b)$
其中M为误分类点的数目。

感知机学习算法

求解最优化问题：
$min_{w,b}L(w,b)=-\sum_{x_{i} \in M}y_{i}(w\bullet x_{i}+b)$
随机梯度下降法，
首先任意选择一个超平面，w，b，然后不断极小化目标函数,损失函数L的梯度：
$\triangledown_{w}L(w,b)=-\sum_{x_{i} \in M}y_{i}x_{i}$
$\triangledown_{b}L(w,b)=-\sum_{x_{i} \in M}y_{i}$
选取误分类点更新：
$w\leftarrow w+\eta y_{i}x_{i}$
$b\leftarrow b+\eta y_{i}$

感知机学习算法的原始形式：

输入：训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$ ,其中 $x_{i} \in Xn = R^{n},y_{i} \in Y={+1,-1},i=1,2,3,...,N$ 学习率 $\eta (0 < \eta \leq1)$ ;
输出：w,b;感知机模型 $f(x)=sign(w\bullet x+b)$
(1) 选取初始值 $w_{0},b_{0}$
(2)在训练集中选取数据 $x_{i},y_{i})$
(3)如果 $y_{i}(w \bullet x+b) \leq 0$ , $\quad w\leftarrow w+\eta y_{i}x_{i}$ $\quad \quad b\leftarrow b+\eta y_{i}$
(4) 专职(2),直到训练集中没有误分类点。
例：正例： $x_{1}=(3,3)^T$ 负例： $x_{3}=(1,1)^T$
在这里插入图片描述
解：构建优化问题: $min_{w,b}L(w,b)=-\sum_{x_{i} \in M}y_{i}(w\bullet x_{i}+b)$
求解：w,b, $\eta =1$
(1) 取出值 $w_{0},b_{0}=0$
(2) 对 $x_{1}=(3,3)^T,y_{1}(w_{0} \bullet x_{1}+b_{0}=0)$ ,未能被正确分类，更新w,b $w_{1}=w_{0}+y_{1}x_{1}=(3,3)^T,b_{1}=b_{0}+y_{1}=1$
得线性模型： $w_{1}\bullet x+b_{1}=3x^{(1)}+3x^{(2)}+1$
(3) $x_{2}$ ,显然， $y_{1}(w_{1}\bullet x_{i}+b_{1})>0$ ,被正确分类，对 $x_{3}=(1,1)^T,y_{3}(w_{1}\bullet x_{3}+b_{1})<0$ ,被错误分类，
$w_{2}=w+{1}+y_{3}x_{3}=(2,2)^T,b_{2}=b_{1}+y_{3}=0$
得到线性模型： $w_{2}\bullet x+b_{2}=2x^{(1)}+2x^{2}$
如此继续下去： $w_{7}=(1,1)^T,b_{7}=-3$ ,
$w_{7} \bullet x+ b_{7}=x^{(1)}+x^{(2)}-3$
分离超平面： $x^{(1)}+x^{(2)}-3=0$
感知机模型： $f(x)=sign(x^{(1)}+x^{(2)}-3)$
在这里插入图片描述
算法的收敛性：证明经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。
将b并入权重向量w，记作： $\hat w=(w^T,b)^T$
$\hat x=(x^T,1)^T ,\hat x \in R^{n+1},\hat w \in R^{n+1},\hat w \hat x=w \bullet x+b$
定理：
设训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$ 是线性的,可分离的，其中 $x_{i} \in X=R^n,y_{i} \in Y = \{-1,+1\},i=1,2,...,N$
则
(1)存在满足条件 $||\hat w_{opt}||=1$ 的超平面 $\hat w_{opt} \bullet \hat x=w_{opt} \bullet x +b_{opt}=0$ ,且存在 $\gamma >0$ ,对所有 $i = 1, 2, 3, . . ., N$ , $y_{i}(\hat w_{opt} \bullet \hat x_{i})=y_{i}(w_{opt} \bullet x +b_{opt}) \ge \gamma$
证明:
由线性可分, 存在超平面： $\hat w_{opt} \bullet \hat x=w_{opt} \bullet x +b_{opt}=0$
使 $||\hat w_{opt}||=1$ ，由有限的点，均有：
$y_{i}(\hat w_{opt} \bullet \hat x_{i})=y_{i}(w_{opt} \bullet x +b_{opt}) >0$
存在：
$\gamma = min_{i}\{y_{i}(w_{opt} \bullet x +b_{opt})\}$
使： $y_{i}(\hat w_{opt} \bullet \hat x_{i})=y_{i}(w_{opt} \bullet x +b_{opt}) \ge \gamma$
(2) 令 $R=\max_{1 \leq i \leq N}$ ,算法在训练集的误分类次数K满足不等式, $\leq \begin{pmatrix} \cfrac{R}{\gamma} \end{pmatrix}^2$
证明：令 $\hat w_{k-1}$ ,是第K个误分类实例之前的扩充权值向量，即：
$\hat w_{k-1}=(w_{k-1}^T,b_{k-1})^T$
第K个误分类实例的条件是： $y_{i}(\hat w_{k-1} \bullet \hat x_{i}) = y_{i}(w_{k-1} \bullet x_{i}+b_{k-1}) \leq 0$
则w和b的更新：
$w_{k} \leftarrow w_{k-1}+\eta y_{i}x_{i}$
$b_{k} \leftarrow b_{k-1}+\eta y_{i}$
即：
$\hat w_{k} = \hat w_{k-1}+\eta y_{i} \hat x_{i}$
推倒两个不等式：
(1) $\hat w_{k} \bullet \hat w_{opt} \geq k \eta \gamma$
由： $\hat w_{k} \bullet \hat w_{opt} =\hat w_{k-1} \bullet \hat w_{opt}+ \eta y_{i} \hat w_{opt} \bullet \hat x_{i} \geq \hat w_{k-1} \bullet \hat w_{opt}+ \eta \gamma$
得： $\hat w_{k} \bullet \hat w_{opt} \geq \hat w_{k-1} \bullet \hat w_{opt}+ \eta \gamma \geq \hat w_{k-2} \bullet \hat w_{opt}+ 2\eta \gamma \geq...\geq k \eta \gamma$
(2) $||\hat w_{k}||^2 \leq k \eta^2 R^2$
则： $||\hat w_{k}||^2=(||w_{k-1}+\eta y_{i}x_{i}||)^2=||\hat w_{k-1}^2||+2 \eta y_{i} \hat w_{k-1} \bullet \hat x_{i}+\eta^2||\hat x_{i}||^2$
$\leq ||\hat w_{k-1}^2||+\eta^2||\hat x_{i}||^2$
$\leq ||\hat w_{k-1}^2||+\eta^2 R^2$
$\leq ||\hat w_{k-2}^2||+2\eta^2 R^2 \leq...$
$\leq k\eta^2 R^2$
结合两个不等式:
(1) $\eta \gamma\leq \hat w_{k} \bullet \hat w_{opt} \leq ||\hat w_{k}||||\hat w_{opt}||\leq \sqrt{k} \eta \R$
$k^2 \gamma^2 \leq kR^2$
得： $\leq \begin{pmatrix} \cfrac{R}{\gamma} \end{pmatrix}^2$
定理表明：

误分类的次数k是有上界的，当训练数据集线性可分时，感知机学习算法原始形式迭代是收敛的。
感知机算法存在许多解，既依赖于初值，也依赖迭代过程中误分类点的选择顺序。
为得到唯一分离超平面，需要增加约束，如SVM。
线性不可分数据集，迭代震荡。

感知机算法的对偶形式：
基本想法：将w和b表示为实例xi和标记yi的线性组会的形式，通过求解其系数而求得w和b，对误分类点：
$\leftarrow w +\eta y_{i}x_{i} ,\quad b \leftarrow b+\eta y_{i}$
最后学习到 $w=\sum_{i=1}^{N} \alpha_{i}y_{i}x_{i}) ,\quad b=\sum_{i=1}^{N} \alpha_{i}y_{i}$
感知机学习算法的对偶形式：
输入：训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$ ,其中 $x_{i} \in Xn = R^{n},y_{i} \in Y={+1,-1},i=1,2,3,...,N$ 学习率 $\eta (0 < \eta \leq1)$ ;
输出： $\alpha$ ,b;感知机模型 $f(x)=sign\left(\sum_{j=1}^{N} \alpha_{j}y_{j}x_{j}\bullet x+b\right)$ ,其中 $\alpha=(\alpha_{1},\alpha_{2},...,,\alpha_{N})^T$
(1) $\alpha \leftarrow0, b\leftarrow 0$
(2) 在训练集中的选取数据 $x_{i},y_{i})$
(3) 如果 $y_{i}\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j}\right) \leq 0$
$\alpha_{i} \leftarrow \alpha_{i}+\eta,b \leftarrow b+\eta y_{i}$
(4) 转至(2)直到没有误分类数据.
例：正样本点是 $x_{i}=(3,3)^T, x_{2}=(4,3)^T,负样本点是x_{3}=(1,1)^T$
解：
(1)取 $\alpha_{i}=0,i=1,2,3, b=0, \eta = 1$
(2)计算Gram矩阵
$G=\begin{bmatrix} 18 &21 & 6 \\ 21 &25 &7 \\ 6 &7 & 2 \end{bmatrix}$
(3)误分条件 $y_{i}\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \bullet x_{j}+b\right) \leq 0$
参数更新
$\alpha_{i} \leftarrow \alpha_{i}+1,b \leftarrow b+ y_{i}$
(4)迭代。
在这里插入图片描述
(5) $w=2x_{1}+0x_{2}-5x_{3}=(1,1)^T,b=-3$
分离超平面 $x^{(1)}+x^{(2)}-3=0$
感知机模型 $f(x)=sign(x^{(1)}+x^{(2)}-3)$