MIT计算机视觉课件总结Lecture6-Lecture12

继续之前的计算机视觉课程的学习:

Lecture 6 物体

人类对于物体的感知是连续感知和分类感知的混合,在大层面下,分类感知起主要作用,比如看到的物体,我们都会下意识地根据颜色来进行类别分类。而在小尺度下,例如我们要仔细分辨一块瓷砖内花纹之间有什么区别,这个时候,连续感知更多地帮助我们对物体进行认知。当然,涉及到认知层面,必然会跟文化因素,经验,任务和注意力有关。
perception
类别的分类是非常重要的,虽然我们不知道物体的类别,也可以得到相应的3D形状,纹理,材料特性这些研究对象的信息,但是,物体的类别还封装好了物体的一些行为属性,即物体能做什么(C++里面,类除了数据成员外,还有表明能实现什么功能的函数成员)。
如椅子类别:
chair
上面椅子是否可以坐的例子可以认为是直接感知(direct perception),具有形式简单,容易定义的特点。但是直接感知存在一个问题:它是依赖于观察者的(observer dependent)。对于看上去,结构非常相似的物体,对它们的感知(或认知)却应该是不一样才行。
mailbox&trashbin
虽然外形是一样的,却是两个截然相反的对象。这个时候就需要非直接感知了。
接下来讨论的是:哪一级的感知才是正确的感知?
比如说我们对汽车的认知是:2~4个门,4个轮子,1块天花板,2个前灯,还有挡风玻璃。但是,假如我们正考虑买车,要考虑的方面就要更具体了。
入门级分类:将物体分为典型类别和非典型类别,通常不需要科属种那样详细的分类。
经典的分类方法是基于物体组成部分来分的,要确定哪些部分对于分类是必要且有用的,然后把这些组成部件进行抽象,用基本形状如长方块,圆环等来表示,要考虑部件的相对空间位置。
RBC
这里还介绍了一种常用的分类器构造方法:boosting(提升):将简单已得到的弱分类器叠加起来,就能boosting成一个强分类器。
boosting illustration

Lecture 7 场景

场景和物体的关系:场景是人类能够进行活动的地方,不仅仅是物体的组合,是有其属性和功能的。
在人的记忆中,场景是一个比存在的物体更容易记住的对象。
scene&object
那么,通过什么能够得到图像中场景的规律?

  • 塑造环境的物理过程。如,图中存在很多雪,可能是在高山上。
  • 场景中的功能性约束。如,存在很多书本还有电脑,可能是书房。
  • 观察者视角的约束。
  • 人与外部世界的交互。

自然场景和人工场景的分类(我本科毕设也利用了这个特性):
scene categories
特写视角和大场景的分类:
close-up
上面这两种都是用傅里叶变换的频谱特性进行简单的分类。下面利用Gist描述子进行更具体的分类:
Gist描述子是用Gabor对原图进行4个尺度8个方向卷积得到32个特征图,然后把每个特征图分为16个区域,求每个区域的平均特征,再把4*8*16=512维的特征组合起来,得到Gist描述子。
gist
还有一些通过词袋(bag of words)的方法:SIFT特征,视觉词,金字塔匹配,SVM分类等等进行场景分类。

Lecture 8 场景

这个Lecture继续讲场景分类,从近邻法开始,提到场景分类中,图片量级非常大,所以必须采用快速高效的特征编码方式-二值编码及对应的距离汉明距离。
nearest neighbors
SVM有三种核来得到决策边界,分别是:

  • 线性核:
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值