CS231n Convolutional Neural Networks for Visual Recognition 课程翻译（一）

最新推荐文章于 2024-04-26 16:30:41 发布

开心点点

最新推荐文章于 2024-04-26 16:30:41 发布

阅读量1.4k

点赞数

分类专栏： CS231n课程翻译文章标签：计算机视觉

CS231n课程翻译专栏收录该内容

1 篇文章 0 订阅

订阅专栏

图像分类：数据驱动方法，KNN,训练/校验/测试切分

关键词：L1/L2距离,超参搜索，交叉验证

这是一门介绍性的课程，本课程旨在向人们介绍从计算机视觉到图像分类问题和数据驱动的方法。内容如下：

-图像分类问题介绍，数据驱动方法，流水线
-最近邻分类器
-KNN
-检验集合，交叉验证，超参调整
-最近邻居的优势和劣势
-总结
-总结：应用KNN实战
-延伸阅读

图像分类问题

动机：在这一部分，我们将介绍图像分类问题–从一个固定的类别中赋予一张输入图像一个标签。这是计算机视觉的核心问题之一，我们不管它的简单性和已存在大量的已实现的应用。另外，在随后的课程中，我们将会看到，很多其他与计算机视觉直接相关的相似任务（例如物体检测，分割）可以被化简为图像分类问题
例子：举个例子：以下面的图像为例，一个图像分类器模型将单张图像进行分类，并且赋予4个概率标签{猫，狗，帽子，马克杯}。正如图像所显示的那样，对计算机而言，一张图像被表示为一张大的3维数字数组，在这个例子中，猫的图像第248个像素宽，400像素高，而且有3个颜色通道，分别是红，绿，蓝（或者简写为RGB）。这样，这张图像包含248x 400x 3个数字，或者总共297,600个数字。每个数字是一个整数，从0（黑色）变化到255（白色）。我们的任务是将这个巨大的数字转换为单个标签，例如“猫”

课程配图
图像分类的任务是对于给定的图像预测单个标签（或者如上图所展示的确定在标签上置信度分布）图像是从0-255变化的3维整型数组，图像的尺寸是 Width x Height x 3。“3”代表3个颜色通道，红色，绿色，蓝色

挑战：因为对于人类而言，识别一个看得见的概念（例如：猫）的任务是相对微不足道的，但是从计算机视觉算法的角度而言，它是值得考虑的。正如我们在线面所展示的挑战列表，记住使用亮度值来表示的3维数组的图像的原生表示。

-视角的变化
-尺度的变化
-形状的变化
-遮挡
-光照挑战
-背景干扰
-同一种类别的不同表实现（类内变化）

当同时重新训练这些对于类内变化敏感的数据，一个好的图像分类模型对于上述这些变化必须是具有很好的鲁棒性。

这里写图片描述
数据驱动的方法：我们怎么可能写一个直接可以将图像分类的算法呢？不像写一个排序的的算法，对于为在图像中识别一只猫所写的算法是不可观察的，这样，不是指出我们在代码中直接看到的感兴趣的种类。我们将提供给计算机每个类别很多例子，然后开发学习算法。

开心点点

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CS231n Convolutional Neural Networks for Visual Recognition 课程翻译（一）

图像分类：数据驱动方法，KNN,训练/校验/测试切分关键词：L1/L2距离,超参搜索，交叉验证这是一门介绍性的课程，本课程旨在向人们介绍从计算机视觉到图像分类问题和数据驱动的方法。内容如下：-图像分类问题介绍，数据驱动方法，流水线 -最近邻分类器 -KNN -检验集合，交叉验证，超参调整 -最近邻居的优势和劣势 -总结 -总结：应用KN
复制链接

扫一扫