感知机建模及对偶形式

最新推荐文章于 2024-02-18 11:00:00 发布

lih627

最新推荐文章于 2024-02-18 11:00:00 发布

阅读量256

点赞数

分类专栏：算法统计学习方法文章标签：机器学习数据分析

本文链接：https://blog.csdn.net/Hoooo_233/article/details/107770797

版权

算法同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

统计学习方法

3 篇文章 0 订阅

订阅专栏

本文介绍了线性可分感知机的建模，包括线性分类器的构造和错误样本的梯度上升更新规则。通过扩充权重向量将偏置项合并到权重中。接着探讨了对偶形式，分析了更新规则，并指出对偶形式在计算上的优势，如使用Gram矩阵加速。最后，给出了扩充向量对偶形式的Python实现。

摘要由CSDN通过智能技术生成

感知机建模及对偶形式

- 线性可分感知机
- 对偶形式

线性可分感知机

数据建模，每个样本 $\mathbb{x}=[x_1,x_2,_,...x_n]$ ，二分类问题，对应标签 $y\in\{-1, 1\}$ ，构造线性分类器：
$\text{sign}\left(\mathbb{w \cdot x}^T+b\right)$

对任意一样本对 $(\mathbb{x}_i, y_i)$ ，则分类正确时满足：

$y_i\left(\mathbb{w\cdot x}^T + b\right) > 0$
对应分类错误时候时满足：

$f(\mathbb{w}, b) = y_i\left(\mathbb{w\cdot x}^T + b\right) \leq 0$

更新参数 $(\mathbb{w}, b)$ 使其大于0，即需要朝梯度是上升方向更新参数:

$\frac{\partial f(\mathbb{w}, b)}{\partial\mathbb{w}} = \mathbb{x}_i\cdot y_i\\ \frac{\partial f(\mathbb{w}, b)}{\partial b}=y_i$
对应更新方式为:
$\mathbf{w} \leftarrow \mathbf{w} + \eta\cdot\mathbb{x}_i\cdot y_i\\ b \leftarrow \eta\cdot y_i$
可以采用SGD进行优化即可

扩充权重向量

可以通过对 $\mathbb{x}$ 补1，即 $\hat{\mathbb{x}} = [\mathbb{x}, 1]$ 从而把 $b$ 并入 $\mathbb{w}$ ，此时

$f(\hat{\mathbb{x}}) =\text{sign}\left(\mathbb{w\cdot\hat{x}}\right)$
对应更新方式为
$\mathbf{w} \leftarrow \mathbf{w} + \eta\cdot\hat{\mathbf{x_i}}\cdot y_i$

对偶形式

与《统计学习方法》里面略有不同，这里讨论扩充权重向量时的对偶形式，首先分析更新方式：
$\mathbf{w} \leftarrow \mathbf{w} + \eta\cdot\hat{\mathbf{x_i}}\cdot y_i$

初始化 $\mathbf{w} = \vec{0}$ ，可以发现，最终的结果 $\mathbf{w}$ 只与 $(\hat{\mathbf{x}_i},y_i)$ 被记为负压样本的次数 $n_i$ 有关，那么可以通过如下形式表示 $\mathbf{w}$ ：
$\mathbf{w} = \sum_{i=0}^k\eta\cdot n_i\cdot\hat{\mathbf{x}_i}\cdot y_i = \sum_{i=0}^k \alpha_i\cdot y_i \cdot \hat{\mathbf{x}_i}$
其中 $k$ 为样本数量，对应推理方程可以变为:
$f(\hat{\mathbf{x}}) = \text{sign}\left(\sum_{i =0}^k\alpha_i\cdot y_i \cdot \hat{\mathbf{x}_i} \times{\mathbf{x}}^T\right)$
分类错误时：
$\sum_{i =0}^k\alpha_i\cdot y_i \cdot \hat{\mathbf{x}_i}\times \hat{\mathbf{x_j}}^T\cdot y_j\leq0$
此时第 $j$ 个样本出了问题，类似原始问题，只需要让 $n_j + 1$ 即可
$KaTeX parse error: Expected 'EOF', got '&' at position 6: n_j &̲\leftarrow n_j …$
为什么使用对偶形式：

对偶形式训练的时候使用了 $\hat{\mathbf{x}_i}\times\hat{\mathbf{x}_j}$ ，可以预先计算他们的值加速计算，Gram矩阵。

#[k, n + 1]
Extend_X = np.hstack([X, np.ones([X.shape[0], 1])])
# [k, k]
Gram = Extend_X.dot(Extend_X.T)

下面是扩充向量对偶形式的Python代码

import numpy as np
import random


class Perceptron(object):
    def __init__(self,
                 max_iter=5000,
                 eta=1,
                 ):
        self.eta = eta
        self.max_iter_ = max_iter
        self.w = 0

    def fit(self, X, y):
        """
        X: [k, n]
        y: [k, ]
        compute w:[n + 1,]
        """
        # [1, k]
        self.alpha = np.zeros([1, X.shape[0]])
        n_iter_ = 0
        # [k, n + 1]
        Extend_X = np.hstack([X, np.ones([X.shape[0], 1])])
        # [k, k]
        self.Gram = Extend_X.dot(Extend_X.T)
        while n_iter_ < self.max_iter_:
            index = random.randint(0, y.shape[0] - 1)
            # \sum(\alpha x y_i x x_i x x_j) 
            pred = self.alpha.dot(np.multiply(y, self.Gram[index, :]))
            # y_j x pred
            if y[index] * pred <= 0:
                self.alpha[0, index] += self.eta
            n_iter_ += 1
        # 恢复扩充权重向量
        self.w = self.alpha.dot(np.multiply(y, Extend_X.T).T)

    def predict(self, X):
        X = np.hstack([X, np.ones(X.shape[0]).reshape((-1, 1))])
        rst = np.array([1 if rst else -1 for rst in np.dot(X, self.w.T) > 0])
        return rst

lih627

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
感知机建模及对偶形式

感知机建模及对偶形式线性可分感知机对偶形式线性可分感知机数据建模，每个样本x=[x1,x2,,...xn]\mathbb{x}=[x_1,x_2,_,...x_n]x=[x1,x2,,...xn]，二分类问题，对应标签y∈{−1,1}y\in\{-1, 1\}y∈{−1,1}，构造线性分类器：y=sign(w⋅xT+b)y = \text{sign}\left(\mathbb{w \cdot x}^T+b\right)y=sign(w⋅xT+b)对任意一样本对(xi,yi)(\mathb
复制链接

扫一扫

专栏目录