对计算机视觉的基础知识,计算机视觉基础知识自我温习

茅酒手艺人

于 2021-06-25 18:41:44 发布

阅读量93

点赞数

文章标签：对计算机视觉的基础知识

计算机视觉基础知识自我温习

(2016-05-09 22:04:50)

标签：

计算机视觉基础知识

分类：

学术

搞视觉时间也不短了，主要以论文为主，系统的视觉知识学习还是研一的事情，有些知识点已经忘记，故想着“温故而知新”，以国外著名视觉课程为蓝本，再次补习之前的视觉知识。

具体的，采用德克萨斯大学奥斯汀分校Kristen Grauman的视觉课程

第一讲视觉介绍

1. 什么是视觉？用一句话描述，就是图像和视频的自动理解；

具体分为三个方面，

1)度量层面，从视觉数据中计算实际三维世界的属性，例如，基于双目图像的深度估计，基于运动信息的结构估计，和特定物体的跟踪；

2)感知和解释层面，具体指使得一个机器(如计算机)能够识别物体，人物，场景和动作的算法和视觉数据表征方式；

3)搜索和组织层面，具体是指能够挖掘，搜索视觉数据并能与其交互的算法。

上面介绍的视觉课程，主要针对视觉的第二个层面，即对视觉数据的感知和解释。

2. 与视觉相关的学科

本质上，计算机视觉是一个交叉学科，涉及到，图形学，图像处理，算法，感知科学，机器学习，人工智能；相比于其他更为理论化的学科，视觉是偏向于实际应用和工程化的学科。

特别的，计算图形学和计算机视觉，针对的是两个相反的任务：视觉完成分析的任务，是从已知数据(通常为图像或视频)中获取模型；而图形学完成合成的任务，是根据已知模型生成数据。

3. 为什么研究视觉？

随着图像资源的增多，相应的应用场景也随之增加；从单调简单任务中解放人力，增强人的视觉能力，改善人机交互效果，机器人和自动化设备的感知需求，视觉内容的组织和访问；具体例子包括，人脸识别，移动设备上的图像搜索和交互，用于辅助诊断的医学图像处理，视频监控，以及辅助安全驾驶系统。

4. 为什么视觉研究是困难的？

本质上，视觉要解决的是一个病态问题，因为所处理的图像数据是二维的，相对于真实三维世界，存在较大的信息缺失，而视觉的目标是从二维图像中估计场景的三维信息(如结构和深度)；从语义上看，这种从二维到三维的信息逆向估计过程是不可能的，所以视觉研究始终需要面对这个固有的问题。

除了这个固有问题，视觉研究中还面临一些其他挑战，1)图像成像过程中一些“讨厌”的参数，如光照，物体姿态，场景杂乱，场景物体混曡，同一类物体的外观差异，以及成像视点的变化；2)同一类物体内部的形状变化；3)图像数据分析过程中，整体上下文信息的重要性，这种上下文信息通常难以描述和建模，而这种信息对于正确理解场景信息往往是十分重要的；4)视觉数据的高复杂度，例如，单幅图像通常含有1000x1000个像素点，带关节物体的姿态具有较高的自由度，网络上的上百亿张图像，等等

分享：

喜欢

0

赠金笔

加载中，请稍候......

评论加载中，请稍候...

发评论

登录名：密码：找回密码注册记住登录状态

昵称：

发评论

以上网友发言只代表其个人观点，不代表新浪网的观点或立场。

茅酒手艺人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对计算机视觉的基础知识,计算机视觉基础知识自我温习

计算机视觉基础知识自我温习(2016-05-09 22:04:50)标签：计算机视觉基础知识分类：学术搞视觉时间也不短了，主要以论文为主，系统的视觉知识学习还是研一的事情，有些知识点已经忘记，故想着“温故而知新”，以国外著名视觉课程为蓝本，再次补习之前的视觉知识。具体的，采用德克萨斯大学奥斯汀分校Kristen Grauman的视觉课程第一讲视觉介绍1. 什么是视觉？用一句话描述，就是图像和视...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。