CS231n Convolutional Neural Networks for Visual Recognition 课程翻译(一)

图像分类:数据驱动方法,KNN,训练/校验/测试 切分

关键词:L1/L2距离,超参搜索,交叉验证

这是一门介绍性的课程,本课程旨在向人们介绍从计算机视觉到图像分类问题和数据驱动的方法。内容如下:

-图像分类问题介绍,数据驱动方法,流水线
-最近邻分类器
-KNN
-检验集合,交叉验证,超参调整
-最近邻居的优势和劣势
-总结
-总结:应用KNN实战
-延伸阅读

图像分类问题

动机:在这一部分,我们将介绍图像分类问题–从一个固定的类别中赋予一张输入图像一个标签。这是计算机视觉的核心问题之一,我们不管它的简单性和已存在大量的已实现的应用。另外,在随后的课程中,我们将会看到,很多其他与计算机视觉直接相关的相似任务(例如物体检测,分割)可以被化简为图像分类问题
例子:举个例子:以下面的图像为例,一个图像分类器模型将单张图像进行分类,并且赋予4个概率标签{帽子马克杯}。正如图像所显示的那样,对计算机而言,一张图像被表示为一张大的3维数字数组,在这个例子中,猫的图像第248个像素宽,400像素高,而且有3个颜色通道,分别是红,绿,蓝(或者简写为RGB)。这样,这张图像包含248x 400x 3个数字,或者总共297,600个数字。每个数字是一个整数,从0(黑色)变化到255(白色)。我们的任务是将这个巨大的数字转换为单个标签,例如“猫”

课程配图
图像分类的任务是对于给定的图像预测单个标签(或者如上图所展示的确定在标签上置信度分布)图像是从0-255变化的3维整型数组,图像的尺寸是 Width x Height x 3。“3”代表3个颜色通道,红色,绿色,蓝色


挑战:因为对于人类而言,识别一个看得见的概念(例如:猫)的任务是相对微不足道的,但是从计算机视觉算法的角度而言,它是值得考虑的。正如我们在线面所展示的挑战列表,记住 使用亮度值来表示的3维数组的图像的原生表示。

-视角的变化
-尺度的变化
-形状的变化
-遮挡
-光照挑战
-背景干扰
-同一种类别的不同表实现(类内变化)

当同时重新训练这些对于类内变化敏感的数据, 一个好的图像分类模型对于上述这些变化必须是具有很好的鲁棒性。


这里写图片描述
数据驱动的方法:我们怎么可能写一个直接可以将图像分类的算法呢?不像写一个排序的的算法,对于为在图像中识别一只猫所写的算法是不可观察的,这样,不是指出我们在代码中直接看到的感兴趣的种类。 我们将提供给计算机每个类别很多例子,然后开发学习算法。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值