《统计学习方法》第二章: 感知机读书笔记

最新推荐文章于 2021-10-02 11:14:14 发布

ErinLiu虎哥的铲屎员

最新推荐文章于 2021-10-02 11:14:14 发布

阅读量583

点赞数 1

分类专栏：《统计学习方法》-李航文章标签：统计学习方法

本文链接：https://blog.csdn.net/liuerin/article/details/89094813

版权

《统计学习方法》-李航专栏收录该内容

10 篇文章 0 订阅

订阅专栏

第二章

- - - 2.感知机

一切为了数据挖掘的准备

2.感知机

2.1感知机模型

感知机：二类分类的线性模型。
数学表达：输入空间 $X\subseteq R^n$ ，输出空间是 $y=\{+1,-1\}$ ，输入实例x,输出实例y,输入空间到输出空间的函数： $f (x) = s i g n (w x + b)$ , $\in R^n$ ,叫做权值， $b\in R$ 叫做偏置。sign函数是符号函数 $sign(x)=\begin{cases} +1, & x\geqslant 0 \\ -1, & x <0 \end{cases}$
分离超平面S： $w x + b = 0$ 对应一个超平面S，w是超平面的法向量，b是超平面的截距，可以将样本点分为正、负两类。
对于数据集T，对所有的 $y_i = +1$ 的实例， $wx_i+b>0$ ; $y_i = -1$ 的实例， $wx_i+b<0$ ,则数据集T为线性可分数据集。

2.2感知机学习策略

输入空间 $R^n$ 中任一点 $x_0$ 到超平面S的距离： $\frac{1}{||w||}|wx_0+b|$ , $∣ ∣ w ∣ ∣$ 是w的 $L_2$ 范数
如果数据正确分类 $y_i(wx_i+b)>0$ ,如果被误分类 $y_i(wx_i+b)<0$ ,误分类点到超平面S的距离 $-\frac{1}{||w||}y_i(wx_i+b)$
损失函数： $L(wx+b)=-\sum_{x_i \in M}y_i(wx_i+b)$ ，M为误分类的点。这个损失函数就是感知机的经验风险函数。

2.3感知机学习算法

感知机学习算法的原始形式

损失函数极小化： $minL(wx+b)=-\sum_{x_i \in M}y_i(wx_i+b)$
梯度下降：
$\nabla_wL(w,b)=-\sum_{x_i \in M}y_ix_i$
$\nabla_bL(w,b)=-\sum_{x_i \in M}y_i$
$\leftarrow w + \eta y_ix_i$
$\leftarrow b + \eta y_i$
算法过程
- 选取初值 $w_0,b_0$
- 在训练集中选取数据 $x_i,y_i)$
- 如果 $y_i(wx_i+b)\leqslant 0$ , $\leftarrow w + \eta y_ix_i,b \leftarrow b + \eta y_i$ ，直至此点被正确分类
- 转至第二步，直至训练集中没有误分类点

感知机学习算法的对偶形式

将最后学习到的w,b表示为 $w=\sum_{i=1}^{N}\alpha_iy_ix_i,b=\sum_{i=1}^N\alpha_iy_i$ , $\alpha_i>0$ ,N为样本量

算法过程：感知机模型 $f(x)=sign(\sum_{j=i}^N \alpha_j y_jx_jx+b)$ ,其中 $\alpha=(\alpha_1,\alpha_2,\cdots,\alpha_N)^T$
- $\alpha \leftarrow 0,b \leftarrow 0$
- 训练集中选数据 $x_i,y_i)$
- 如果 $y_i\sum_{j=i}^N \alpha_j y_jx_jx_i+b\leqslant 0$ , $\alpha_i \leftarrow \alpha_i + \eta ,b \leftarrow b + \eta y_i$

2.4感知机学习算法收敛证明

设最后线性可分数据集学习的结果为 $\hat{w}_{opt}\cdot \hat{x} = w_{opt}\cdot x+b_{opt}=0$ , $||\hat{w}_{opt}||=1$ .

存在 $\gamma$ ，对数据集中所有数据，满足 $y_i(\hat{w}_{opt}\cdot \hat{x}_i )= w_{opt}\cdot x_i+b_{opt}\geqslant \gamma$ ，即 $\gamma$ 为离超平面最近的点的距离。
假设第k次学习后的学习结果能将数据集完全正确的分开。
$\hat{w}_{k-1}=(w_{k-1}^T,b_{k-1})^T$
$w_k \leftarrow w_{k-1} + \eta y_ix_i,$
$b_{k} \leftarrow b_{k-1} + \eta y_i,$
$\hat{w}_k=\hat{w}_{k-1} + \eta y_i\hat{x}_i$
$\hat{w}_k\cdot \hat{w}_{opt} = \hat{w}_{k-1} \cdot \hat{w}_{opt} + \eta y_i\hat{w}_{opt}\hat{x}_i \geqslant \hat{w}_{k-1} \cdot \hat{w}_{opt}+\eta \gamma\geqslant \hat{w}_{o} \cdot \hat{w}_{opt}+k\eta \gamma$
$||\hat{w}_k||^2=||\hat{w}_{k-1} + \eta y_i\hat{x}_i||^2=||\hat{w}_{k-1}||^2 + 2\eta y_i \hat{w}_{k-1}\hat{x}_i + \eta^2||\hat{x}_i||^2 \leqslant||\hat{w}_{k-1}||^2+\eta^2R^2 \leqslant||\hat{w}_{0}||^2+k\eta^2R^2$
$k\eta \gamma\leqslant \hat{w}_k\cdot \hat{w}_{opt} \leqslant ||\hat{w}_k||||\hat{w}_{opt}|| \leqslant ||\hat{w}_k||^2 \leqslant \sqrt{k}\eta R$
$k\leqslant(\frac{R}{\gamma})^2$

2.5 我的实现，不一定简便

import numpy as np
class Perception:
    def __init__(self,x,y):
        self.tdx = np.array(x)
        self.tdy = np.array(y)
        self.w = np.zeros(self.tdx[0].shape)
        self.b = 0
        
    def train(self):
        n = 0
        #当存在分类错误的数据时，计算
        while np.sum((np.dot(self.tdx,self.w)+self.b)*self.tdy<=0)>0:
            for xi,yi in zip(self.tdx,self.tdy):
                #当此数据计算错误时，更新
                while yi*(np.dot(xi,self.w)+self.b)<= 0:
                    self.w += yi*xi
                    self.b += yi
                    n += 1
                    print('w:',self.w,' b:',self.b,' 第%d次迭代'%n)
                #如果全部数据被分类正确
                if np.sum((np.dot(self.tdx,self.w)+self.b)*self.tdy<0)== 0:
                    break
        return self.w,self.b

x=[[3,3],[4,3],[1,1]]
y=[1,1,-1]
p = Perception(x,y)
wo,bo=p.train()
print(wo,bo)

ErinLiu虎哥的铲屎员

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》第二章: 感知机读书笔记

第二章2.感知机2.1感知机模型2.2感知机学习策略2.3感知机学习算法感知机学习算法的原始形式感知机学习算法的对偶形式2.4感知机学习算法收敛证明一切为了数据挖掘的准备2.感知机2.1感知机模型感知机：二类分类的线性模型。数学表达：输入空间X⊆RnX\subseteq R^nX⊆Rn，输出空间是y={+1,−1}y=\{+1,-1\}y={+1,−1}，输入实例x,输出实例y,输入空...
复制链接

扫一扫