MIT计算机视觉课件总结Lecture6-Lecture12

最新推荐文章于 2022-06-22 22:29:23 发布

purgle

最新推荐文章于 2022-06-22 22:29:23 发布

阅读量1.4k

点赞数

分类专栏：视觉文章标签：计算机视觉麻省理工

本文链接：https://blog.csdn.net/purgle/article/details/78941945

版权

继续之前的计算机视觉课程的学习：

Lecture 6 物体

人类对于物体的感知是连续感知和分类感知的混合，在大层面下，分类感知起主要作用，比如看到的物体，我们都会下意识地根据颜色来进行类别分类。而在小尺度下，例如我们要仔细分辨一块瓷砖内花纹之间有什么区别，这个时候，连续感知更多地帮助我们对物体进行认知。当然，涉及到认知层面，必然会跟文化因素，经验，任务和注意力有关。
perception
类别的分类是非常重要的，虽然我们不知道物体的类别，也可以得到相应的3D形状，纹理，材料特性这些研究对象的信息，但是，物体的类别还封装好了物体的一些行为属性，即物体能做什么（C++里面，类除了数据成员外，还有表明能实现什么功能的函数成员）。
如椅子类别：
chair
上面椅子是否可以坐的例子可以认为是直接感知（direct perception），具有形式简单，容易定义的特点。但是直接感知存在一个问题：它是依赖于观察者的（observer dependent）。对于看上去，结构非常相似的物体，对它们的感知（或认知）却应该是不一样才行。
mailbox&trashbin
虽然外形是一样的，却是两个截然相反的对象。这个时候就需要非直接感知了。
接下来讨论的是：哪一级的感知才是正确的感知？
比如说我们对汽车的认知是：2~4个门，4个轮子，1块天花板，2个前灯，还有挡风玻璃。但是，假如我们正考虑买车，要考虑的方面就要更具体了。
入门级分类：将物体分为典型类别和非典型类别，通常不需要科属种那样详细的分类。
经典的分类方法是基于物体组成部分来分的，要确定哪些部分对于分类是必要且有用的，然后把这些组成部件进行抽象，用基本形状如长方块，圆环等来表示，要考虑部件的相对空间位置。
RBC
这里还介绍了一种常用的分类器构造方法：boosting（提升）：将简单已得到的弱分类器叠加起来，就能boosting成一个强分类器。
boosting illustration

Lecture 7 场景

场景和物体的关系：场景是人类能够进行活动的地方，不仅仅是物体的组合，是有其属性和功能的。
在人的记忆中，场景是一个比存在的物体更容易记住的对象。
scene&object
那么，通过什么能够得到图像中场景的规律？

塑造环境的物理过程。如，图中存在很多雪，可能是在高山上。
场景中的功能性约束。如，存在很多书本还有电脑，可能是书房。
观察者视角的约束。
人与外部世界的交互。

自然场景和人工场景的分类（我本科毕设也利用了这个特性）：
scene categories
特写视角和大场景的分类：
close-up
上面这两种都是用傅里叶变换的频谱特性进行简单的分类。下面利用Gist描述子进行更具体的分类：
Gist描述子是用Gabor对原图进行4个尺度8个方向卷积得到32个特征图，然后把每个特征图分为16个区域，求每个区域的平均特征，再把4*8*16=512维的特征组合起来，得到Gist描述子。
gist
还有一些通过词袋（bag of words）的方法：SIFT特征，视觉词，金字塔匹配，SVM分类等等进行场景分类。

Lecture 8 场景

这个Lecture继续讲场景分类，从近邻法开始，提到场景分类中，图片量级非常大，所以必须采用快速高效的特征编码方式-二值编码及对应的距离汉明距离。
nearest neighbors
SVM有三种核来得到决策边界，分别是：

线性核：

最低0.47元/天解锁文章

purgle

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MIT计算机视觉课件总结Lecture6-Lecture12

继续之前的计算机视觉课程的学习：Lecture 6 物体人类对于物体的感知是连续感知和分类感知的混合，在大层面下，分类感知起主要作用，比如看到的物体，我们都会下意识地根据颜色来进行类别分类。而在小尺度下，例如我们要仔细分辨一块瓷砖内花纹之间有什么区别，这个时候，连续感知更多地帮助我们对物体进行认知。当然，涉及到认知层面，必然会跟文化因素，经验，任务和注意力有关。类别的分类是非常
复制链接

扫一扫