[CS131] Lecture 16 Recognizing Objects by Parts

最新推荐文章于 2021-04-13 08:36:25 发布

XiongLY0

最新推荐文章于 2021-04-13 08:36:25 发布

阅读量268

点赞数

分类专栏：计算机视觉文章标签： CS131 计算机视觉

本文链接：https://blog.csdn.net/bear507/article/details/82316024

版权

计算机视觉专栏收录该内容

20 篇文章 3 订阅

订阅专栏

根据 Stanford CS131 课程写的笔记（大部分为 note 翻译），英语水平一般，如有错误请评论指正

Lecture 16 Recognizing Objects by Parts

1 Introduction

计算机视觉不止检测物体的分类，还要检测物体的相关信息。例如：

淘宝以图搜购买链接
某种蘑菇能不能吃
…

通常，计算机视觉需要能够提供物体基本特征之外的信息。

What can computer recognize today?

找到特定类别的物体（品牌、地标、书本…），不过只能精确匹配。对于当今的系统来说，找到一个通用的对象要困难得多。

What’s next to work on?

计算机视觉尚未达到的主要目标是通用类别识别，即能识别图中所有物体类别。例如：对于一个橘色杯子，我们想要找到咖啡杯，但图像搜索只能找到有橘色物体在同一位置的图片。

当今的系统无法识别训练集之外的任意物体，而现在有太多的物体类别，很难决定专注于哪个物体。

Big Data from the Internet

现在互联网上 86% 的数据都是可视数据，而可视数据不能被自动分析。很多识别问题对机器来说较难，但对于人类来说很简单。当人类找不到答案时也可以简单的求助于他人寻找答案，而机器无法做到，所以当今互联网提供了一个将人类帮助和机器识别结合的环境。

ImageNet and Confusion Matrices

既然模型受限于训练集中类的数目，一个可行的方法是拓展训练集中的类的数目。比较有名的数据集有：ImageNet(13M images, 22000 categories), Caltech101(9K images, 101 categories), LabelMe (30k images), SUN (131K images)。

Deng 从 PASCAL VOC 到 ImageNet 应用了四种分类模型，发现随着类别数目的提升，精度也随之大幅下降。他将结果画成以下的混淆矩阵 (confusion matrix)：

混淆矩阵在 xy 轴上画出类别，并衡量类中物体正确分类与否的程度。图中对角线上格子颜色越浅，代表分类错误越少。

从图中我们可以看出，分类器需要区分的类越 “细”（或越相似），分类错误就越多。例如：区分狗与鸟的错误率比区分鸟的种类要低。

Challenges and Solutions

Semantic Hierarchy

一个解决正确区分相似类的方法是语义层次 (semantic hierarchy)。下图即为一个例子。我们创建了一个树结构，它的每个孩子都是父亲的子类。系统将尝试尽量识别到树的深处，即更精确的类。当类更精确时，不确定度也会增加。这个概念称作”hedging”——系统试图识别不确定树中的位置，根据位置做出猜测以得到足够信息，减少错误。

为了正式定义这个问题，我们假设训练和测试集有同样的数据分布。另外，我们假设我们可以得到一个给出层次结构的后验概率的基本类 $g$ 。接下来，定义一个奖励函数 $R(f)$ ，它给在树更深处的类（更精确的类）更高的分数。再定义一个预计精度函数 $A(f)$ ，它随着我们沿树向下移动（不确定性增加）而降低。我们的问题定义为

max A (f) \geq 1 - ϵ R (f)

$\max_{A(f)\geq 1-\epsilon} R(f)$
其中

ϵ ϵ $\epsilon$ 是预先设置的常数，表示对所有例子而言分类器所允许误差。

为了保证最后的方案是最优方案，我们定义一个全局的，固定的，标量参数 $\lambda\geq 0$ 。对每个节点，我们将 $\lambda$ 加入奖励值，然后正规化后验分布。流程如下：

选择一个 $\lambda$
找到与 $\lambda$ 相关的决策规则 $f$
在验证集上衡量表现
检查是否 $A\approx 1-\epsilon$ 。不是则重复

我们可以用二分搜索快速找到 $\lambda$

Fine-grained Classes

现有的方法从图中所有可能的位置选择特征，但是它可能找不到正确的特征。例如：两种相似的鸟区别在于尾巴，但是计算机可能无法找到这是个可用于辨别的特征。解决方案是众包 (crowd-sourcing)。

那么，什么是最好的方法来询问一个人群：哪些特征可以区分图像的类别？

Crowd-sourced bubble games：用泡沫来代表特征，利用游戏特性来吸引大量人群为图像标记出主要特征，因为有奖惩系统，所以标记质量也较高。

XiongLY0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[CS131] Lecture 16 Recognizing Objects by Parts

根据 Stanford CS131 课程写的笔记（大部分为 note 翻译），英语水平一般，如有错误请评论指正Lecture 16 Recognizing Objects by Parts1 Introduction计算机视觉不止检测物体的分类，还要检测物体的相关信息。例如：淘宝以图搜购买链接某种蘑菇能不能吃…通常，计算机视觉需要能够提供物体基本特征之外的信...
复制链接

扫一扫

专栏目录