[CS131] Lecture 16 Recognizing Objects by Parts

根据 Stanford CS131 课程写的笔记(大部分为 note 翻译),英语水平一般,如有错误请评论指正

Lecture 16 Recognizing Objects by Parts

1 Introduction

计算机视觉不止检测物体的分类,还要检测物体的相关信息。例如:

  • 淘宝以图搜购买链接
  • 某种蘑菇能不能吃

通常,计算机视觉需要能够提供物体基本特征之外的信息。

What can computer recognize today?

找到特定类别的物体(品牌、地标、书本…),不过只能精确匹配。对于当今的系统来说,找到一个通用的对象要困难得多。

What’s next to work on?

计算机视觉尚未达到的主要目标是通用类别识别,即能识别图中所有物体类别。例如:对于一个橘色杯子,我们想要找到咖啡杯,但图像搜索只能找到有橘色物体在同一位置的图片。

当今的系统无法识别训练集之外的任意物体,而现在有太多的物体类别,很难决定专注于哪个物体。

Big Data from the Internet

现在互联网上 86% 的数据都是可视数据,而可视数据不能被自动分析。很多识别问题对机器来说较难,但对于人类来说很简单。当人类找不到答案时也可以简单的求助于他人寻找答案,而机器无法做到,所以当今互联网提供了一个将人类帮助和机器识别结合的环境。

ImageNet and Confusion Matrices

既然模型受限于训练集中类的数目,一个可行的方法是拓展训练集中的类的数目。比较有名的数据集有:ImageNet(13M images, 22000 categories), Caltech101(9K images, 101 categories), LabelMe (30k images), SUN (131K images)。

Deng 从 PASCAL VOC 到 ImageNet 应用了四种分类模型,发现随着类别数目的提升,精度也随之大幅下降。他将结果画成以下的混淆矩阵 (confusion matrix):

混淆矩阵在 xy 轴上画出类别,并衡量类中物体正确分类与否的程度。图中对角线上格子颜色越浅,代表分类错误越少。

从图中我们可以看出,分类器需要区分的类越 “细”(或越相似),分类错误就越多。例如:区分狗与鸟的错误率比区分鸟的种类要低。

Challenges and Solutions

Semantic Hierarchy

一个解决正确区分相似类的方法是语义层次 (semantic hierarchy)。下图即为一个例子。我们创建了一个树结构,它的每个孩子都是父亲的子类。系统将尝试尽量识别到树的深处,即更精确的类。当类更精确时,不确定度也会增加。这个概念称作”hedging”——系统试图识别不确定树中的位置,根据位置做出猜测以得到足够信息,减少错误。

为了正式定义这个问题,我们假设训练和测试集有同样的数据分布。另外,我们假设我们可以得到一个给出层次结构的后验概率的基本类 g g 。接下来,定义一个奖励函数R(f),它给在树更深处的类(更精确的类)更高的分数。再定义一个预计精度函数 A(f) A ( f ) ,它随着我们沿树向下移动(不确定性增加)而降低。我们的问题定义为

maxA(f)1ϵR(f) max A ( f ) ≥ 1 − ϵ R ( f )

其中 ϵ ϵ 是预先设置的常数,表示对所有例子而言分类器所允许误差。

为了保证最后的方案是最优方案,我们定义一个全局的,固定的,标量参数 λ0 λ ≥ 0 。对每个节点,我们将 λ λ 加入奖励值,然后正规化后验分布。流程如下:

  1. 选择一个 λ λ
  2. 找到与 λ λ 相关的决策规则 f f
  3. 在验证集上衡量表现
  4. 检查是否A1ϵ。不是则重复

我们可以用二分搜索快速找到 λ λ

Fine-grained Classes

现有的方法从图中所有可能的位置选择特征,但是它可能找不到正确的特征。例如:两种相似的鸟区别在于尾巴,但是计算机可能无法找到这是个可用于辨别的特征。解决方案是众包 (crowd-sourcing)。

那么,什么是最好的方法来询问一个人群:哪些特征可以区分图像的类别?

Crowd-sourced bubble games: 用泡沫来代表特征,利用游戏特性来吸引大量人群为图像标记出主要特征,因为有奖惩系统,所以标记质量也较高。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值