【计算机视觉与深度学习】线性分类器（一）

最新推荐文章于 2024-07-11 13:14:55 发布

CCH²¹

最新推荐文章于 2024-07-11 13:14:55 发布

阅读量2.3k

点赞数 4

分类专栏：计算机视觉文章标签：机器学习深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_45554010/article/details/119876643

版权

计算机视觉专栏收录该内容

4 篇文章 1 订阅

订阅专栏

从线性分类器开始

线性分类器形式简单，易于理解。
通过层级结构（神经网络）或高维映射（支持向量机）可以形成功能强大的非线性模型。

线性分类器的定义

线性分类器是一种线性映射，将输入的图像特征映射为类别分数。线性分类器定义如下： $f_i(\bm x, \bm w_i)=\bm w_i^T \bm x+b_i,i=1,2,...,c$ 其中 $\bm x$ 代表输入的 $d$ 维图像向量， $c$ 为类别个数， $\bm w_i=\begin{gathered}\begin{bmatrix} w_{i1} & w_{i2} & ... & w_{id} \end{bmatrix}\end{gathered}^T$ 为第 $i$ 个类别的权值向量， $b_i$ 为偏置。如果 $f_i(\bm x)>f_j(\bm x)$ ，则决策输入图像 $\bm x$ 属于第 $i$ 类。

线性分类器的决策步骤

将图像表示为向量。
假设我们有一张图片 $\begin{gathered}\begin{bmatrix} 56 & 231 \\ 24 & 2 \end{bmatrix}\end{gathered}$ 将其转换为向量的形式即为 $\bm x=\begin{gathered}\begin{bmatrix} 56 \\ 231 \\ 24 \\ 2 \end{bmatrix}\end{gathered}$
计算当前图片每个类别的分数。
假设我们当前需要完成的是一个三分类任务（将图片划分为汽车类、猫类、鸟类的其中一种），线性分类器为 $f_i(\bm x, \bm w_i)=\bm w_i^T \bm x+b_i,i=1,2,3$ 其中权值矩阵 $\bm w_i^T=\begin{gathered}\begin{bmatrix} 0.2 & -0.5 & 0.1 & 2.0 \\ 1.5 & 1.3 & 2.1 & 0.0 \\ 0 & 0.25 & 0.25 & -0.3 \end{bmatrix}\end{gathered}$ 偏置 $b_i=\begin{gathered}\begin{bmatrix} 1.1 \\ 3.2 \\ -1.2 \end{bmatrix}\end{gathered}$ 也就是说，对于汽车类，有 $\bm w_1^T=\begin{gathered}\begin{bmatrix} 0.2 & -0.5 & 0.1 & 2.0 \end{bmatrix}\end{gathered}$ 对于猫类，有 $\bm w_2^T=\begin{gathered}\begin{bmatrix} 1.5 & 1.3 & 2.1 & 0.0 \end{bmatrix}\end{gathered}$ 对于鸟类，有 $\bm w_3^T=\begin{gathered}\begin{bmatrix} 0 & 0.25 & 0.25 & -0.3 \end{bmatrix}\end{gathered}$ 我们很容易就能求得步骤1中的图片向量 $\bm x$ 在3个类别的得分 $f_i(\bm x)(i=1,2,3).$ 下面给出计算过程： $f_1(\bm x)=\bm w_1^T \bm x+b_1=-96.8$ $f_2(\bm x)=\bm w_2^T \bm x+b_2=437.9$ $f_3(\bm x)=\bm w_3^T \bm x+b_3=61.95$
按类别分数判定当前图像的类别。
根据上面的计算结果，我们判定图像应属于第2类，即猫类。

线性分类器的矩阵表示

线性分类器的矩阵表示为 $\bm f(\bm x,\bm W)=\bm W \bm x+ \bm b$ 其中， $\bm x$ 代表输入图像，其维度为 $d$ ； $\bm f$ 为分数向量，其维度等于类别个数 $c$ ； $\bm W=\begin{gathered}\begin{bmatrix} \bm w_1 & \bm w_2 & ... & \bm w_c \end{bmatrix}\end{gathered}^T$ 为权值矩阵， $\bm w_i=\begin{gathered}\begin{bmatrix} w_{i1} & w_{i2} & ... & w_{id} \end{bmatrix}\end{gathered}^T$ 为第 $i$ 个类别的权值向量； $\bm b=\begin{gathered}\begin{bmatrix} b_1 & b_2 & ... & b_c \end{bmatrix}\end{gathered}^T$ 为偏置向量， $b_i$ 为第 $i$ 个类别的偏置。

线性分类器的 $\bm w_i^T$ 如何理解

下面以CIFAR-10数据集（每张图片样本的大小为32×32×3）为例，将线性分类器的权值向量 $\bm w_i$ 转化为32×32×3的矩阵，并将数值归化到 $[0, 255]$ 区间，以图片的形式表示：
在这里插入图片描述
可见，上面的每一个模板都记录了每一个类别的统计信息。待决策图片与模板图片越相似，根据线性分类器的定义计算出的类别分数 $f$ 就越大。
总结一下，权值可以看做是一种模板，输入图像与评估模板的匹配程度越高，分类器输出的分数就越高。

线性分类器的决策边界

在这里插入图片描述

从几何学角度来说，对于具有二维特征的图片分类问题，类别分数等于0的线，即 $\bm w_i^T \bm x+b_i=0,i=1,2,...,c$ 就是决策面。推广到更高维特征的图片依旧适用。分类器实质上学习的就是决策边界。权值 $\bm w$ 控制着决策边界的方向，偏置 $b$ 控制着决策边界的偏移。在上图中，箭头方向代表分类器的正方向，沿着分类器的正方向距离决策边界越远，类别分数就越高。

线性分类器的损失函数

损失函数的定义

损失函数搭建了模型性能与模型参数之间的桥梁，指导模型参数优化。损失函数用于度量给定分类器的预测值与真实值的不一致程度，其输出通常是一个非负实值，该值可以作为反馈信号来对分类器参数进行调整，以降低当前示例对应的损失值，提升分类器的分类效果。
损失函数的一般定义为 $L=\frac{1}{N}\sum_iL_i(f(\bm x_i,\bm W),y_i)$ 其中 $\bm x_i$ 表示数据集中第 $i$ 个样本， $f(\bm x_i,\bm W)$ 表示分类器对 $\bm x_i$ 的类别预测， $y_i$ 为样本 $i$ 的真实类别标签， $L_i$ 为第 $i$ 个样本的损失值， $L$ 为数据集的损失值，是数据集中所有样本损失的平均值。

多类支持向量机损失

记线性分类器为 $s_{ij}=f_j(\bm x_i,\bm w_j,b_j)=\bm w_j^T \bm x_i+b_j$ 其中 $j$ 表示类别标签， $j = 1, 2, . . ., c$ ， $\bm w_j,b_j$ 表示第 $j$ 个类别分类器的参数， $\bm x_i$ 表示数据集中的第 $i$ 个样本， $s_{ij}$ 表示第 $i$ 个样本第 $j$ 类别的预测分数。则第 $i$ 个样本的多类支持向量机损失定义为 $L_i=\sum_{j\neq y_i}\max(0,s_{ij}-s_{y_i}+1)$ 其中 $s_{y_i}$ 表示第 $i$ 个样本真实类别的预测分数。损失函数中在 $s_{ij}-s_{y_i}$ 后面加 $1$ 是加了一个边界，这样可以使损失值的计算更稳定。当正确类别的得分比不正确类别的得分高出1分及以上时，就没有损失，否则就会产生损失。
在这里插入图片描述

$\max(0,·)$ 损失常被称为折页损失 (hinge loss)。

下面给出一组多类支持向量机损失的计算示例。
假设有三个类别的训练样本各一张，线性分类器为 $\bm f(\bm x,\bm W)=\bm W \bm x+\bm b$ ，其中 $\bm W,\bm b$ 已知，分类器对三个样本的打分如下：
在这里插入图片描述

当前分类器对于样本1的损失为 $L_1=\max(0,-2.3-0.6+1)+\max(0,1.9-0.6+1)=2.3$ 对于样本2的损失为 $L_2=\max(0,1.7-2.9+1)+\max(0,2.3-2.9+1)=0.4$ 对于样本3的损失为 $L_3=\max(0,3.1-4.3+1)+\max(0,-2.6-4.3+1)=0$ 则当前分类器对于整个数据集图像的损失为 $L=\frac{1}{N}\sum_{i=1}^NL_i=\frac{2.3+0.4+0}{3}=0.9$

CCH²¹

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
【计算机视觉与深度学习】线性分类器（一）

目录从线性分类器开始线性分类器的定义线性分类器的决策步骤线性分类器的矩阵表示线性分类器的wiT\bm w_i^TwiT如何理解线性分类器的决策边界线性分类器的损失函数损失函数的定义多类支持向量机损失从线性分类器开始线性分类器形式简单，易于理解。通过层级结构（神经网络）或高维映射（支持向量机）可以形成功能强大的非线性模型。线性分类器的定义线性分类器是一种线性映射，将输入的图像特征映射为类别分数。线性分类器定义如下：fi(x,wi)=wiTx+bi,i=1,2,...,cf_i(\bm x, \
复制链接

扫一扫