计算机视觉基础知识自我温习
(2016-05-09 22:04:50)
标签:
计算机视觉基础知识
分类:
学术
搞视觉时间也不短了,主要以论文为主,系统的视觉知识学习还是研一的事情,有些知识点已经忘记,故想着“温故而知新”,以国外著名视觉课程为蓝本,再次补习之前的视觉知识。
具体的,采用德克萨斯大学奥斯汀分校Kristen Grauman的视觉课程
第一讲 视觉介绍
1. 什么是视觉? 用一句话描述,就是图像和视频的自动理解;
具体分为三个方面,
1)度量层面,从视觉数据中计算实际三维世界的属性,例如,基于双目图像的深度估计,基于运动信息的结构估计,和特定物体的跟踪;
2)感知和解释层面,具体指使得一个机器(如计算机)能够识别物体,人物,场景和动作的算法和视觉数据表征方式;
3)搜索和组织层面,具体是指能够挖掘,搜索视觉数据并能与其交互的算法。
上面介绍的视觉课程,主要针对视觉的第二个层面,即对视觉数据的感知和解释。
2. 与视觉相关的学科
本质上,计算机视觉是一个交叉学科,涉及到,图形学,图像处理,算法,感知科学,机器学习,人工智能;相比于其他更为理论化的学科,视觉是偏向于实际应用和工程化的学科。
特别的,计算图形学和计算机视觉,针对的是两个相反的任务:视觉完成分析的任务,是从已知数据(通常为图像或视频)中获取模型;而图形学完成合成的任务,是根据已知模型生成数据。
3. 为什么研究视觉?
随着图像资源的增多,相应的应用场景也随之增加;从单调简单任务中解放人力,增强人的视觉能力,改善人机交互效果,机器人和自动化设备的感知需求,视觉内容的组织和访问;具体例子包括,人脸识别,移动设备上的图像搜索和交互,用于辅助诊断的医学图像处理,视频监控,以及辅助安全驾驶系统。
4. 为什么视觉研究是困难的?
本质上,视觉要解决的是一个病态问题,因为所处理的图像数据是二维的,相对于真实三维世界,存在较大的信息缺失,而视觉的目标是从二维图像中估计场景的三维信息(如结构和深度);从语义上看,这种从二维到三维的信息逆向估计过程是不可能的,所以视觉研究始终需要面对这个固有的问题。
除了这个固有问题,视觉研究中还面临一些其他挑战,1)图像成像过程中一些“讨厌”的参数,如光照,物体姿态,场景杂乱,场景物体混曡,同一类物体的外观差异,以及成像视点的变化;2)同一类物体内部的形状变化;3)图像数据分析过程中,整体上下文信息的重要性,这种上下文信息通常难以描述和建模,而这种信息对于正确理解场景信息往往是十分重要的;4)视觉数据的高复杂度,例如,单幅图像通常含有1000x1000个像素点,带关节物体的姿态具有较高的自由度,网络上的上百亿张图像,等等
分享:
喜欢
0
赠金笔
加载中,请稍候......
评论加载中,请稍候...
发评论
登录名: 密码: 找回密码 注册记住登录状态
昵 称:
发评论
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。