一、计算机视觉
1、基本概念
计算机视觉的目的是让机器通过分析图像或视频来理解场景中的内容。这涉及到从像素数据中提取信息,识别物体,以及理解场景的三维结构等一系列复杂的任务。
2、关键技术
(1)图像分类:目的是识别图像中的主要物体或场景。
(2)物体检测:不仅要识别图像中的物体,还要确定其位置和大小。
(3)语义分割:将图像中的每个像素分配给一个物体类别,用于理解场景的详细布局。
(4)实例分割:与语义分割类似,但是区分同一类别的不同实例。
(5)姿态估计:识别物体(如人体)的姿态和关节位置。
3、方法
1、传统图像处理技术:这些技术包括边缘检测、特征匹配、光流计算等,通常依赖于手工设计的特征。
(1)边缘检测:
①目标是识别数字图像中亮度变化明显的点,通常用于提取物体的轮廓。
②常见的算法包括Roberts算子、Canny算子、Sobel算子和Laplace算子等。
③Roberts算子适用于处理低噪声且边缘接近于正负45度的图像。
④Canny算子是一种多阶段边缘检测算法,它使用两个阈值来检测强边缘和弱边缘,并且能连接边缘以形成连续的轮廓。
(2)特征匹配:
①特征匹配通常涉及到在两幅图像之间找到对应的特征点,这在图像识别和三维重建中非常重要。
②ORB-SLAM中使用的特征匹配方法包括词袋匹配和光流法匹配。
③词袋模型通过计算图像的词袋向量之间的距离来进行特征匹配。
(3)光流计算:
①光流是指在视频序列中,由于相机或物体的运动,图像中的像素点在连续帧之间的移动模式。
②光流计算的基本假设是对象的像素强度在连续帧之间不会改变,且相邻像素具有相似的运动。
③光流追踪可以用于目标跟踪、动作识别和三维场景重建等领域
2、深度学习方法:随着深度学习的发展,卷积神经网络(CNN)已成为计算机视觉的主流方法。CNN能够自动学习图像特征,极大地提高了图像识别和处理的性能。
(1)卷积神经网络(CNN)
卷积神经网络(CNN)是一种专门用来处理具有类似网格结构的数据的深度学习算法,在图像和视频识别等领域表现突出。
①基本概念:CNN通过模拟生物的视觉认知机制来进行图像分析,它能够有效地提取图像的局部特征,并通过多层网络结构组合这些特征以进行复杂的图像识别任务。
②架构与层级结构:CNN通常由多个卷积层、池化层以及全连接层组成。每一层都负责提取不同层次的特征