计算机视觉 第四章:图像识别、目标跟踪

本文介绍了计算机视觉技术的核心内容,包括图像分类、图像语义分割、目标检测和识别、人脸检测与识别方法,以及目标跟踪的单目标、多目标策略,着重讲解了各种技术原理和应用,最后讨论了深度学习在目标跟踪中的挑战与解决方案。
摘要由CSDN通过智能技术生成

 

计算机视觉笔记:第一章 图像分类-CSDN博客

计算机视觉笔记 第二章 图像语义分割-CSDN博客

计算机视觉笔记 第三章:目标检测-CSDN博客

计算机视觉 第四章:图像识别、目标跟踪-CSDN博客

计算机视觉 第五章 多目视觉(立体视觉)-CSDN博客

从图像或者视频信息中检测出具有语义信息的内容

识别的目标(算法的输出)很多样化,取决于具体应用场景,可以是:

特定的图像种类

图像中的文字

人物姿态识别人的身份

……

人间识别的步骤:人脸检测,人脸特征点定位,人脸对齐,身份识别

人脸检测:

基于知识的方法:用一组规则来定义人脸(如:两个眼睛一张嘴,眼间距)。

基于模版匹配方法:将参数化的人脸模板与输入图像进行比对。

基于特征的方法:通过算法提取图像的特征进行比对。效果比前两者好。

人脸特征点定位:

定位人脸上鼻子眼睛等特征的位置。

人脸对齐:

变换输入图像中的人脸与三维模型上的人脸特征点相匹配

身份识别:

将对齐后的未知人脸与数据库中已经标定好身份的人脸进行比较

目标跟踪:

利用视频或图像序列的上下文信息,预测目标运动状态并确定其位置。

在运动过程中,目标可能会呈现一些视觉上的变化,比如姿态、形状、尺度、遮挡、亮度等变化,目标跟踪算法围绕着解决这些变化展开。

单目标跟踪:

生成类方法:对目标建立模型,在视频中搜索与目标对象相似度最高的区域作为目标区域,算法主要对目标自身特征进行细致描述,一般忽略了背景信息的影响,在目标特征变化或者出现遮挡等情况下容易导致跟踪失败。

判别类方法:对目标对象和背景信息进行区分,从而实现目标跟踪。因为此方法对背景也建模了,所以鲁棒性较强,已成为主流方法。

多目标跟踪:

单目标跟踪关注如何对目标进行重定位。多目标跟踪往往更加关注如何对已检测到的目标进行精准匹配。

多目标跟踪一般需要建立表观模型和运动模型。表观模型主要是对目标的整体外观特征建模,从而尽可能将目标与背景分离;运动模型主要是对目标的运动特性建模,通过对视频上下文信息建模来获取目标的运动轨迹。

目标跟踪评价指标:

中心位置误差:跟踪目标的中心位置和人工标注的准确位置之间的平均像素距离

区域重叠面积比率:跟踪算法得到的边界框和人工标注边界框的交集与并集之比

基于光流的目标跟踪(生成式):

通过视频序列在相邻帧之间的像素关系,寻找像素的位移变化来判断目标的运动状态,从而实现对运动目标的跟踪

  前提条件:光照不变,视点不变,运动不剧烈

需要计算视频中所有的像素,使得算法的实时性很差

基于稀疏表示的目标跟踪(生成式):

好的候选表示系数明显稀疏于差的候选表示系数,这说明稀疏约束有利于定位更好的目标候选,从而获取精确的跟踪结果

基于分类器的目标跟踪(判别式):

分类器将前景与背景分开

基于相关滤波的目标跟踪(判别式):

使用目标图像训练得到的滤波器对图像进行滤波处理,在响应图像中寻找最大值位置,此位置即是图像中对应的目标位置。

基于深度学习的目标跟踪

基于深度网络:

基于卷积神经网络:

 现有问题:1没有考虑时间连续性;2数次卷积后的特征变得高度抽象,失去的目标本身的结构信息;3池化操作会降低特征图的分辨率,损失了目标的空间位置信息;4只关注目标本身的局部空间区域,忽视了对目标周边区域的上下文信息进行建模

基于递归神经网络:

        基于卷积神经网络的目标跟踪方法都是把目标跟踪建模成分类任务,导致这些跟踪方法很容易受相似物体的干扰。引入递归神经网络,增强模型对相似物体的抗干扰能力。

基于生成式对抗网络:

    使用GAN的原因:每一帧中的正样本空间上高度重合,不能获取丰富的表观信息;正负样本的比例严重不平衡。

基于孪生网络:

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值