通过两个或多个相机采集目标图像,然后基于同一特征点对应像素间的差异来重建三维信息。
多目视觉可以避免部件被遮挡和照明变化对定位的影响。
图像配准:
将同一个场景的不同图像转换到同样的坐标系统中的过程,这些图像可以来自不同时间,不同视角,不同传感器……
根据图像的采集方式,其应用可以分为:多视图分析,多时间分析,多模态分析……
其主要目的是检测输入图像与参考图像之间隐藏的关系
传统的基于特征的图像匹配:
1. 关键点检测和特征描述2. 特征匹配3. 图像变换
双目图像融合:
1.从对称摄像头获取帧2.视差图计算3.背景对象的消除
4.预选感兴趣区域5.掩码的应用和检测过程
多目视觉系统可看作是多个双目系统的组合
第九章 视觉问答
一个高度整合的、具有复杂功能的视觉项目。其中需要包含物体识别,场景分类,数量统计等多个功能。
1联合嵌入方法:
在实际应用中,通常利用:卷积神经网络对目标识别进行预处理,从而获得图像表 征;文本表示是通过在大型文本语料库上预先训练的词嵌入(将词汇映射到实数向量)来获得的。
2组合模型的实现方法:
将不同模块连接组成视觉问答,每个模块实现特定的功能
3注意力方法:
只关注与问题相关的区域信息。注意力过程在推理过程中执行一个明确的附加步骤,该步骤在执行进一步计算之前确定“从哪里看”。
4知识增强方法:
之前的VQA存在的问题:只能获取训练集中的知识,而无论怎样扩大数据集,也无法完全覆盖现实世界;在这种方法中训练的神经网络能力有限,我们希望学习的信息 量远远超过了这种能力。例如:回答“图中有多少哺乳动物”之前,系统要先知道那些是哺乳动物。
学习一些存储常识和事实的知识库