【LDF】线性判别函数（二）

最新推荐文章于 2024-11-06 11:05:01 发布

果壳小旋子

最新推荐文章于 2024-11-06 11:05:01 发布

阅读量380

点赞数

文章标签：算法人工智能

本文链接：https://blog.csdn.net/m0_47867419/article/details/128512233

版权

文章讨论了线性可分样本的感知准则函数，包括线性判别函数、样本规范化处理以及解向量的概念。通过梯度下降法，提出了几种不同的权向量修正方法，如批量修正和单样本修正，用于找到最佳分类超平面。在样本线性可分的情况下，这些方法能够收敛到最优解。

摘要由CSDN通过智能技术生成

感知准则函数

线性可分性

现有 $n$ 个样本: $\mathbf{y}_1, \mathbf{y}_2, \ldots, \mathbf{y}_n$ , 这些样本来自于两个类别 $\omega_1$ 或 $\omega_2$ 。
任务: 寻找一个线性判别函数 $g(\mathbf{x})=\mathbf{a}^T \mathbf{y}$ , 使对这 $n$ 个样本的错分概率最小。
如果存在一个权向量 $\mathbf{a}$ , 对所有 $\mathbf{y} \in \omega_1$ , 均有 $\mathbf{a}^T \mathbf{y}>0$ , 且对所有 $\mathbf{y} \in \omega_2$ , 均有 $\mathbf{a}^T \mathbf{y}<0$ , 则这组样本集为线性可分的; 否则为线性不可分的。 (广义判别函数意义下)

样本规范化

如果样本集是线性可分的, 将属于 $\omega_2$ 的所有样本由 $\mathbf{y}$ 变成 $-\mathbf{y}$ , 对所有 $n$ 样本, 将得到 $\mathbf{a}^T \mathbf{y}>\mathbf{0}$ 。
经过上述处理之后, 在训练的过程中就不必考虑原来的样本类别。这一操作过程称为对样本的规范化(normalization) 处理。
规范化增广样本: 首先将所有样本写成齐次坐标形式，然后将属于 $\omega_2$ 的所有样本由 $\mathbf{y}$ 变成 $-\mathbf{y}$
后面主要将集中于 “规范化增广样本”。“增广” 是指 “齐次坐标表示” 的含义, 即 $\mathbf{y}=\left(\mathbf{x}^T, 1\right)^T \in R^{d+1}$ 。

解区与解向量

在线性可分的情形下, 满足 $\mathbf{a}^T \mathbf{y}_i>0, i=1,2, \ldots, n$ 的权向量 $\mathbf{a}$ 称为解向量。
权向量 $\mathbf{a}$ 可以理解为权空间中的一点, 每个样本 $\mathbf{y}_i$ 对 $\mathbf{a}$ 的位置均可能起到限制作用, 即要求 $\mathbf{a}^T \mathbf{y}_i>0$ 。
任何一个样本点 $\mathbf{y}_i$ 均可以确定一个超平面 $H_i: \mathbf{a}^T \mathbf{y}_i=0$ , 其法向量为 $\mathbf{y}_i$ 。如果解向量 $\mathbf{a}^*$ 存在, 它必定在 $H_i$ 的正侧, 因为只有在正侧才能满足 $\left(\mathbf{a}^*\right)^T \mathbf{y}_i>0$ 。
按上述方法, $n$ 个样本将产生 $n$ 个超平面。每个超平面将空间分成两个半空间。如果解向量存在, 它必定在所有这些正半空间的交集区域内。这个区域内的所有向量均是一个可行的解向量 $\mathbf{a}^*$ 。

限制解区

可行的解向量不是唯一的, 有无穷多个。
经验: 越靠近区域中间的解向量, 越能对新的样本正确分类；可以引入一些条件来限制解空间
比如: 寻找一个单位长度的解向量 $\mathbf{a}$ , 能最大化样本到分界面的最小距离
比如: 寻找一个最小长度的解向量 $\mathbf{a}$ , 使 $\mathbf{a}^T \mathbf{y}_i \geq b>0$ 。此时可以将 $b$ 称为间隔 (margin)。

感知准则函数

感知准则函数
任务: 设有一组样本 $\mathbf{y}_1, \mathbf{y}_2, \ldots, \mathbf{y}_n$ , 各样本均规范化表示。我们的目的是要寻找一个解向量 $\mathbf{a}$ , 使
$\mathbf{a}^T \mathbf{y}_i>0, \quad i=1,2, \ldots, n$
在线性可分情形下, 满足上述不等式的 $\mathbf{a}$ 是无穷多的, 因此需要引入一个准则。
Frank Rosenblatt 于50年代提出的感知学习机思想
考虑如下准则函数:
$J_p(\mathbf{a})=\sum_{\mathbf{y} \in Y}\left(-\mathbf{a}^T \mathbf{y}\right) \text {, 其中, } Y \text { 为错分样本集合 }$
当 $\mathbf{y}$ 被错分时, $\mathbf{a}^T \mathbf{y} \leq 0$ , 则 $-\mathbf{a}^T \mathbf{y} \geq 0$ 。因此 $J_p$ (a) 总是大于等于 0 。在可分情形下, 当且仅当 $Y$ 为空集时 $J_p(\mathbf{a})$ 将等于零, 这时将不存在错分样本。
因此, 目标是最小化 $J_p(\mathbf{a}): \min _{\mathbf{a}} J_p(\mathbf{a})$
求导
$\frac{\partial J_p(\mathbf{a})}{\partial \mathbf{a}}=-\sum_{\mathbf{y} \in Y} \mathbf{y}$
根据梯度下降，有如下更新准则
$\mathbf{a}_{k+1}=\mathbf{a}_k+\eta_k \sum_{\mathbf{y} \in Y_k} \mathbf{y}$
这里, $\mathbf{a}_{k+1}$ 是当前迭代的结果, $\mathbf{a}_k$ 是前一次迭代的结果, $Y_k$ 是被 $\mathbf{a}_k$ 错分的样本集合, $\eta_k$ 为步长因子 (更新动力因子, 学习率)。
感知准则算法（Batch Perceptron）（伪代码）

$\begin{aligned} & \text { begin initialize: } \mathbf{a}, \eta \text {, certain } \theta \text { (small value), } k=0 \\ & \qquad \begin{array}{ll} \text { do } k \leftarrow k+1 & \\ \qquad \mathbf{a}=\mathbf{a}+\eta_k \sum_{\mathbf{y} \in Y(k)} \mathbf{y} & / / Y(k)=Y_k \\ \text { until }\left|\eta_k \sum \mathbf{y}\right|<\theta, \quad \mathbf{y} \in Y_k & / / \text { 一个较松的停止条件 } \\ \text { return } \mathbf{a} \end{array} \\ & \text { end } \end{aligned}$

之所以称为 “batch perception” 是因为在迭代过程中同时考虑多个样本（每一步所有错分样本都参与更新）。计算复杂度低, 能以较快的速度收敛到极小值点
可变增量批处理修正方法（Batch Variable-Increment Perceptron）
$\begin{aligned} & \text { begin initialize: } \mathbf{a}, \eta_0, k=0 \\ & \qquad \begin{aligned} & \text { do } k \leftarrow k+1(\bmod n) \\ & \qquad Y_k=\{\}, j=0 \\ & \qquad \text { do } j \leftarrow j+1 \\ & \qquad \qquad \text { if } \mathbf{y}_j \text { is misclassified, then append } \mathbf{y}_j \text { to } Y_k \\ & \qquad \text { until } j=n \\ & \qquad \mathbf{a}=\mathbf{a}+\eta_k \sum_{\mathbf{y} \in Y(k)} \mathbf{y} \text { //发现所有错分, 然后再修正 } \\ & \text { until } Y_k=\{\} \text { /直到所有样本均正确分类 } \\ & \text { return } \mathbf{a}\\ \end{aligned} \end{aligned}$
区别就是每一次都要重新计算错分样本
由于所有被 $\mathbf{a}_k$ 错分的样本必然位于以 $\mathbf{a}_k$ 为法向量的超平面的负侧, 所以这些样本的和也必然在该侧
$\mathbf{a}_{k+1}$ 在更新的过程中, 会向错分类样本之和靠近, 因而朝着有利的方向移动（旋转）。一旦这些错分样本点穿过超平面, 就正确分类了。
对于线性可分的样本集, 算法可以在有限步内找到最优解。收敛速度取决于初始权向量和步长

在这里插入图片描述

固定增量单样本修正方法（Fixed-Increment Single-Sample Perceptron）
$\begin{aligned} & \text { begin initialize: }\mathbf{a}, k=0 \\ & \qquad \text { do } k \leftarrow k+1(\bmod n) \\ & \qquad \qquad \text { if } \mathbf{y}^k \text { is misclassified by a, then } \mathbf{a}=\mathbf{a}+\mathbf{y}^k \\ & \qquad\text { until all patterns properly classified } \\ & \qquad\text { return } \mathbf{a} \\ & \text { end } \end{aligned}$
每次迭代只考虑一个错分样本 $\mathbf{y}^k$ , 梯度下降法可以写成: $\mathbf{a}_{k+1}=\mathbf{a}_k+\eta_k \mathbf{y}^k$ 。考虑固定增量, 即令 $\eta_k=1$ ：“固定增量” 并不改变分类决策, 相当于将样本作了一个 $\eta_k$ 的缩放。
算法解释：如果 $\mathbf{a}_k$ 把 $\mathbf{y}_k$ 分错：
$\left(\mathrm{a}_k\right)^T \mathrm{y}^k \leq 0$
$\mathbf{a}_{k+1}=\mathbf{a}_k+\mathbf{y}^k$
$\left(\mathbf{a}_{k+1}\right)^T \mathbf{y}^k=\left(\mathbf{a}_k\right)^T \mathbf{y}^k+\left.\left\|\mathbf{y}^k\right\|\right|^2$
$\left(\mathbf{a}_{k+1}\right)^T \mathbf{y}^k$ 在原来的基础上增加了一个正数: $\left\|\mathbf{y}^k\right\|^2$ 。加着加着不就变正了吗，变正了不就正确分类了吗
可变增量单样本修正方法（Variable-Increment Perceptron with Margin）
$\mathbf{a}_{k+1}=\mathbf{a}_k+\eta_k \mathbf{y}^k$
$\begin{aligned} & \text { begin initialize: a, margin } b, \eta_0, k=0 \\ & \qquad \text { do } k \leftarrow k+1(\bmod n) \\ & \qquad \qquad \text { if } \mathbf{a}^T \mathbf{y}^k \leq \mathrm{b} \text {, then } \mathbf{a}=\mathbf{a}+\eta_k \mathbf{y}^k \\ & \qquad \text { until } \mathbf{a}^T \mathbf{y}^k>b \text { for all } k \\ & \qquad \text { return } \mathbf{a} \\ & \text { end } \end{aligned}$

感知准则函数的收敛性

在样本线性可分的情形下, 固定增量单样本权向量修正方法收敛, 并可得到一个可行解。
设 $\mathbf{a}$ 是一个解向量, 只要证明 $\left\|\mathbf{a}_{k+1}-\mathbf{a}\right\|<\left\|\mathbf{a}_k-\mathbf{a}\right\|$ 即可

【证明】设 $\mathbf{a}$ 是一个解向量, 对于任意一个正的标量 $\alpha, \alpha \mathbf{a}$ 也为一个可行解, 于是有:
$\begin{gathered} \mathbf{a}_{k+1}-\alpha \mathbf{a}=\left(\mathbf{a}_k-\alpha \mathbf{a}\right)+\mathbf{y}^k \\ \left\|\mathbf{a}_{k+1}-\alpha \mathbf{a}\right\|^2=\left\|\mathbf{a}_k-\alpha \mathbf{a}\right\|^2+2\left(\mathbf{a}_k-\alpha \mathbf{a}\right)^T \mathbf{y}^k+\left\|\mathbf{y}^k\right\|^2 \end{gathered}$
由于 $\mathbf{y}^k$ 被错分, 有 $\left(\mathbf{a}_k\right)^T \mathbf{y}^k \leq 0$ 。但 $\mathbf{a}^T \mathbf{y}^k>0$ , 于是:
$\left\|\mathbf{a}_{k+1}-\alpha \mathbf{a}\right\|^2 \leq\left\|\mathbf{a}_k-\alpha \mathbf{a}\right\|^2-2 \alpha \mathbf{a}^T \mathbf{y}^k+\left\|\mathbf{y}^k\right\|^2$
因此, 寻找一个合适的 $\alpha$ , 满足 $\left\|\mathbf{a}_{k+1}-\alpha \mathbf{a}\right\|^2 \leq\left\|\mathbf{a}_k-\alpha \mathbf{a}\right\|^2$ 即可
回忆一下， $a < b + c$ ，要得到 $a < b$ ， $c$ 越大越不利（极端一点， $c < 0$ 直接就得到了）。所以这边假设最坏的情况，令
$\beta^2=\max _{i=1, \ldots, n}\left\|\mathbf{y}_i\right\|^2, \quad \gamma=\min _i \mathbf{a}^T \mathbf{y}_i$
$\left\|\mathbf{a}_{k+1}-\alpha \mathbf{a}\right\|^2 \leq\left\|\mathbf{a}_k-\alpha \mathbf{a}\right\|^2-2 \alpha \gamma+\beta^2$
令 $\alpha=\beta^2 / \gamma$
$\begin{aligned} & \left\|\mathbf{a}_{k+1}-\alpha \mathbf{a}\right\|^2 \leq\left\|\mathbf{a}_k-\alpha \mathbf{a}\right\|^2-\beta^2 \\ & \left\|\mathbf{a}_{k+1}-\alpha \mathbf{a}\right\|^2<\left\|\mathbf{a}_k-\alpha \mathbf{a}\right\|^2 \end{aligned}$
因此, 每次迭代, 当前解离可行解越来越近。经过 $k + 1$ 次迭代后:
$\left\|\mathbf{a}_{k+1}-\alpha \mathbf{a}\right\|^2 \leq\left\|\mathbf{a}_1-\alpha \mathbf{a}\right\|^2-k \beta^2$
由于 $\left\|\mathbf{a}_{k+1}-\alpha \mathbf{a}\right\|$ 总是非负的, 所以至多经过如下次更正即可:
$k_0=\left\|\mathbf{a}_1-\alpha \mathbf{a}\right\|^2 / \beta^2$