机器视觉:挑战与应用的全面解析
1. 场景分析的奥秘
在我们的日常生活中,场景分析无处不在。当我们四处走动、避开障碍物、寻找食物时,就在进行着场景分析。场景中包含众多物体,物体之间的相互关系和相对位置与识别物体本身同样重要。
场景分析需要处理大量输入数据,以及物体间复杂的关系。例如,我们可能会问“这是路灯吗?”“它离我有多远?”“我认识这个人吗?”“过马路安全吗?”等问题。这些问题的答案构成了对场景更丰富的描述,这种描述不再是简单的分类标签或物体坐标列表,而是具有更丰富的信息内容。
场景描述最初可能处于事实内容层面,但最终会深入到意义、重要性和相关性层面。确定物体间的关系可能比单纯识别和定位物体涉及更大的组合爆炸问题,因此需要借助各种辅助手段来进行视觉解读,人类视觉系统就充分利用了上下文信息和庞大的数据库来辅助眼睛进行解读。
2. 视觉与图形学的关系
常有人说视觉是“仅仅”是逆图形学,这种说法有一定道理。计算机图形学是从场景的抽象描述和图像形成规律出发,通过计算机生成图像。而视觉则是从图像集合和图像形成规律出发,获取物体集合的描述。
然而,这两个过程的相似表述掩盖了一些基本差异。图形学是“前馈”活动,一旦获得足够的视角、物体信息和图像形成规律知识,就可以直接生成图像,尽管可能需要大量计算,但过程是完全确定和可预测的。而视觉则不同,它涉及搜索和组合爆炸问题。一些视觉软件包会将图形(或CAD)软件包插入反馈循环进行解读,通过迭代引导图形软件包,直到其生成与输入图像可接受的近似结果,此时其输入参数就体现了正确的解读。
从3D环境到2D图像的转换会丢失大量深度和其他信息,导致图像解读存在歧义,3D到2D的
超级会员免费看
订阅专栏 解锁全文
11万+

被折叠的 条评论
为什么被折叠?



