斯坦福CS231n assignment1：SVM图像分类原理及实现

最新推荐文章于 2024-06-30 17:10:06 发布

JackMeGo

最新推荐文章于 2024-06-30 17:10:06 发布

阅读量1.6k

点赞数

分类专栏：人工智能文章标签： CS231n 图像分类

本文链接：https://blog.csdn.net/rootmego/article/details/84327887

版权

本文详细介绍了斯坦福CS231n课程中SVM用于图像分类的原理，包括SVM模型、损失函数、正则化项、梯度下降以及图像预处理。通过理解SVM如何通过超平面进行分类，并通过损失函数和正则化优化模型，最后讨论了小批量数据梯度下降和代码实现。

摘要由CSDN通过智能技术生成

本文Github代码

斯坦福CS231n课程讲解了实现图像分类的方法，从传统的KNN，SVM，到CNN，LSTM模型，讲解的非常专业精准。同时该课程提供了相应的习题来检验和巩固讲授的知识，如果能按部就班的完成，对神经网络将会有深刻的体会和理解。本文将结合代码实现讲解其中的SVM方法实现图像分类的原理和方法，以及需要注意的知识细节。

SVM模型原理

SVM通过平面将空间中的实例划分到不同的类别，从而实现分类。这里的空间包括二维空间，三维空间，一直到高维空间，具体的维数等于实例的特征数量，如果我们待分类的图片是32*32*3（长宽分别是32个像素，RGB3个颜色通道）维的，那么图片所处的空间就是3072维的空间。在这个高维空间，我们通过由权重向量W和偏置项b确定的一个（实际上是一组）超平面来将图片进行分类。为了可视化，我们将多维空间压缩到二维空间，那么就是下面的图像：
通过超平面进行分类

这里每一个平面都将整个高维空间划分成两部分，平面的一侧是某一类图片，另一侧是这个类别之外的其他图片。比如红色的平面一侧是汽车这个类别，另一侧是非汽车类别。每一个类别都对应一个平面，这些平面互相之间不存在关联，利用SVM模型进行分类的目的就是确定这样一组平面，使得同一类尽可能划分在该类对应的平面的一侧，其他类尽可能在另一侧，而且两种类别离平面的距离越大越好（平面尽可能把两类分的更开），这是SVM模型的思路。

所有这些类别对应的平面通过下面的矩阵唯一确定：
线性映射矩阵

其中改变W可以使平面旋转，而改变b使平面平移。如果b为0，此时W*0=0,那么平面会经过原点。

SVM的一种直观解释

SVM模型用于图像分类可以看做给每一种图像的类别生成一个图像模板，然后拿待分类的图像和这个图像模板做内积，计算他们的相似度，相似度最高的类别就是分类类别。根据这个思想，生成的权重向量可视化如下：

图像模板

可以看出，这些图像模板比较能够代表某种类别的共性，比如car类别是一辆红色的车的形象，而horse类型是左右两匹马的形象，这些是集合了所有训练样本得出的模板。从这个角度，SVM可以看做KNN模型的一种简化，KNN模型对一张图片分类时需要和所有训练样本做比较，而SVM只需要和抽象出来的每个类别下的一个图像模板做比较即可，显然更高效。