从图像或者视频信息中检测出具有语义信息的内容
识别的目标(算法的输出)很多样化,取决于具体应用场景,可以是:
特定的图像种类
图像中的文字
人物姿态识别人的身份
……
人间识别的步骤:人脸检测,人脸特征点定位,人脸对齐,身份识别
人脸检测:
基于知识的方法:用一组规则来定义人脸(如:两个眼睛一张嘴,眼间距)。
基于模版匹配方法:将参数化的人脸模板与输入图像进行比对。
基于特征的方法:通过算法提取图像的特征进行比对。效果比前两者好。
人脸特征点定位:
定位人脸上鼻子眼睛等特征的位置。
人脸对齐:
变换输入图像中的人脸与三维模型上的人脸特征点相匹配
身份识别:
将对齐后的未知人脸与数据库中已经标定好身份的人脸进行比较
目标跟踪:
利用视频或图像序列的上下文信息,预测目标运动状态并确定其位置。
在运动过程中,目标可能会呈现一些视觉上的变化,比如姿态、形状、尺度、遮挡、亮度等变化,目标跟踪算法围绕着解决这些变化展开。
单目标跟踪:
生成类方法:对目标建立模型,在视频中搜索与目标对象相似度最高的区域作为目标区域,算法主要对目标自身特征进行细致描述,一般忽略了背景信息的影响,在目标特征变化或者出现遮挡等情况下容易导致跟踪失败。
判别类方法:对目标对象和背景信息进行区分,从而实现目标跟踪。因为此方法对背景也建模了,所以鲁棒性较强,已成为主流方法。
多目标跟踪:
单目标跟踪关注如何对目标进行重定位。多目标跟踪往往更加关注如何对已检测到的目标进行精准匹配。
多目标跟踪一般需要建立表观模型和运动模型。表观模型主要是对目标的整体外观特征建模,从而尽可能将目标与背景分离;运动模型主要是对目标的运动特性建模,通过对视频上下文信息建模来获取目标的运动轨迹。
目标跟踪评价指标:
中心位置误差:跟踪目标的中心位置和人工标注的准确位置之间的平均像素距离
区域重叠面积比率:跟踪算法得到的边界框和人工标注边界框的交集与并集之比
基于光流的目标跟踪(生成式):
通过视频序列在相邻帧之间的像素关系,寻找像素的位移变化来判断目标的运动状态,从而实现对运动目标的跟踪
前提条件:光照不变,视点不变,运动不剧烈
需要计算视频中所有的像素,使得算法的实时性很差
基于稀疏表示的目标跟踪(生成式):
好的候选表示系数明显稀疏于差的候选表示系数,这说明稀疏约束有利于定位更好的目标候选,从而获取精确的跟踪结果
基于分类器的目标跟踪(判别式):
分类器将前景与背景分开
基于相关滤波的目标跟踪(判别式):
使用目标图像训练得到的滤波器对图像进行滤波处理,在响应图像中寻找最大值位置,此位置即是图像中对应的目标位置。
基于深度学习的目标跟踪
基于深度网络:
基于卷积神经网络:
现有问题:1没有考虑时间连续性;2数次卷积后的特征变得高度抽象,失去的目标本身的结构信息;3池化操作会降低特征图的分辨率,损失了目标的空间位置信息;4只关注目标本身的局部空间区域,忽视了对目标周边区域的上下文信息进行建模
基于递归神经网络:
基于卷积神经网络的目标跟踪方法都是把目标跟踪建模成分类任务,导致这些跟踪方法很容易受相似物体的干扰。引入递归神经网络,增强模型对相似物体的抗干扰能力。
基于生成式对抗网络:
使用GAN的原因:每一帧中的正样本空间上高度重合,不能获取丰富的表观信息;正负样本的比例严重不平衡。
基于孪生网络: