对计算机视觉的基础知识,计算机视觉基础知识自我温习

计算机视觉基础知识自我温习

(2016-05-09 22:04:50)

标签:

计算机视觉基础知识

分类:

学术

搞视觉时间也不短了,主要以论文为主,系统的视觉知识学习还是研一的事情,有些知识点已经忘记,故想着“温故而知新”,以国外著名视觉课程为蓝本,再次补习之前的视觉知识。

具体的,采用德克萨斯大学奥斯汀分校Kristen Grauman的视觉课程

第一讲 视觉介绍

1. 什么是视觉? 用一句话描述,就是图像和视频的自动理解;

具体分为三个方面,

1)度量层面,从视觉数据中计算实际三维世界的属性,例如,基于双目图像的深度估计,基于运动信息的结构估计,和特定物体的跟踪;

2)感知和解释层面,具体指使得一个机器(如计算机)能够识别物体,人物,场景和动作的算法和视觉数据表征方式;

3)搜索和组织层面,具体是指能够挖掘,搜索视觉数据并能与其交互的算法。

上面介绍的视觉课程,主要针对视觉的第二个层面,即对视觉数据的感知和解释。

2. 与视觉相关的学科

本质上,计算机视觉是一个交叉学科,涉及到,图形学,图像处理,算法,感知科学,机器学习,人工智能;相比于其他更为理论化的学科,视觉是偏向于实际应用和工程化的学科。

特别的,计算图形学和计算机视觉,针对的是两个相反的任务:视觉完成分析的任务,是从已知数据(通常为图像或视频)中获取模型;而图形学完成合成的任务,是根据已知模型生成数据。

3. 为什么研究视觉?

随着图像资源的增多,相应的应用场景也随之增加;从单调简单任务中解放人力,增强人的视觉能力,改善人机交互效果,机器人和自动化设备的感知需求,视觉内容的组织和访问;具体例子包括,人脸识别,移动设备上的图像搜索和交互,用于辅助诊断的医学图像处理,视频监控,以及辅助安全驾驶系统。

4. 为什么视觉研究是困难的?

本质上,视觉要解决的是一个病态问题,因为所处理的图像数据是二维的,相对于真实三维世界,存在较大的信息缺失,而视觉的目标是从二维图像中估计场景的三维信息(如结构和深度);从语义上看,这种从二维到三维的信息逆向估计过程是不可能的,所以视觉研究始终需要面对这个固有的问题。

除了这个固有问题,视觉研究中还面临一些其他挑战,1)图像成像过程中一些“讨厌”的参数,如光照,物体姿态,场景杂乱,场景物体混曡,同一类物体的外观差异,以及成像视点的变化;2)同一类物体内部的形状变化;3)图像数据分析过程中,整体上下文信息的重要性,这种上下文信息通常难以描述和建模,而这种信息对于正确理解场景信息往往是十分重要的;4)视觉数据的高复杂度,例如,单幅图像通常含有1000x1000个像素点,带关节物体的姿态具有较高的自由度,网络上的上百亿张图像,等等

分享:

a4c26d1e5885305701be709a3d33442f.png喜欢

0

a4c26d1e5885305701be709a3d33442f.png赠金笔

加载中,请稍候......

评论加载中,请稍候...

发评论

登录名: 密码: 找回密码 注册记住登录状态

昵   称:

发评论

以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值