计算机视觉
文章平均质量分 86
唐风绸繆
这个作者很懒,什么都没留下…
展开
-
计算机视觉 第五章 多目视觉(立体视觉)
之前的VQA存在的问题:只能获取训练集中的知识,而无论怎样扩大数据集,也无法完全覆盖现实世界;在这种方法中训练的神经网络能力有限,我们希望学习的信息 量远远超过了这种能力。文本表示是通过在大型文本语料库上预先训练的词嵌入(将词汇映射到实数向量)来获得的。将同一个场景的不同图像转换到同样的坐标系统中的过程,这些图像可以来自不同时间,不同视角,不同传感器……一个高度整合的、具有复杂功能的视觉项目。根据图像的采集方式,其应用可以分为:多视图分析,多时间分析,多模态分析。多目视觉系统可看作是多个双目系统的组合。原创 2024-04-14 20:01:20 · 235 阅读 · 0 评论 -
计算机视觉 第四章:图像识别、目标跟踪
运动模型主要是对目标的运动特性建模,通过对视频上下文信息建模来获取目标的运动轨迹。基于卷积神经网络的目标跟踪方法都是把目标跟踪建模成分类任务,导致这些跟踪方法很容易受相似物体的干扰。好的候选表示系数明显稀疏于差的候选表示系数,这说明稀疏约束有利于定位更好的目标候选,从而获取精确的跟踪结果。使用目标图像训练得到的滤波器对图像进行滤波处理,在响应图像中寻找最大值位置,此位置即是图像中对应的目标位置。通过视频序列在相邻帧之间的像素关系,寻找像素的位移变化来判断目标的运动状态,从而实现对运动目标的跟踪。原创 2024-04-14 19:59:39 · 319 阅读 · 0 评论 -
计算机视觉笔记:第一章 图像分类
通过端到端(能看看到的只是输入的数据和输出的结果,与之对应的是将一个问题拆分为多个步骤分步解决)的特征提取和表示方法通过多层神经网络直接提取对目标有效的特征表示,并通过全连接层进行分类。第一个真正意义上的深度网络,与LeNet5的5层相比,它的层数增加了3层,输入也从28变成了224,AlexNet包含3个卷积池化层(卷积加池化层)、2个卷积层和3个全连接层。包含了16个卷积/全连接层,所有的卷积使用的基本都是3 × 3的卷积,所有的池化使用的都是2 × 2的池化。深度学习算法模型的基石是神经网络。原创 2024-04-12 22:35:09 · 665 阅读 · 0 评论 -
计算机视觉笔记 第三章:目标检测
(上下文信息反映了各个类别的目标在图像中的联合先验概率密度分 布,即哪些类别的目标可能同时出现,哪些类别的目标则不太可能同时出现。锚框(先验框):RPN预置了九种尺寸(三种面积128×128,256×256,512×512,每种面 积又包含三种长宽比1:1,1:2,2:1)的锚框在图像上滑动来寻找目标。目标检测层为每个边界框计算一个置信度(置信度包含两个方面,一是这个边界框含有目标的可能性大小,二是这个边界框的准确度)。在这些不同尺度的特征图上,进行目标位置和类别的训练和预测,从而达到多尺度检测的目的。原创 2024-04-12 22:36:51 · 888 阅读 · 0 评论 -
计算机视觉笔记 第二章 图像语义分割
与经典的卷积神经网络在卷积层之后使用全连接层得到固定长度的特征向量进行分类不同,全卷积神经网络采用反卷积层对最后一个卷积层的特征图进行上采样,使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息。计算完距离之后,每一个像素点都会更新自己所属的图像块,将同一个图像块的像素点取平均,得到新的聚类中心,然后再重复前面的步骤,直到两次聚类中心的距离小于某个阈值。4. 对比相邻的子区域,将相似的区域进行合并,重复上述过程,直到所有子区域均没有相邻的相似区域。原创 2024-04-12 22:35:57 · 683 阅读 · 0 评论