1. 引言
随着AI技术的不断发展,其子领域计算机视觉技术也获得了突飞猛进的进步,计算机视觉即通过机器实现“人眼”对事物的测量和判别能力。目前,计算机视觉技术主要应用于智能视频监控、智能交通、军事应用等领域,其中智能视频监控是通过摄像机获取场景和目标的视频信息,使用算法实现目标检测和目标跟踪,对目标行为进行识别和场景理解。
本文主要对目标跟踪技术进行研究,目标跟踪是计算机视觉领域的研究热点,在军事制导、视觉导航等领域中有着广阔的应用前景,跟踪算法的研究具有重要的实际意义和理论价值 [1]。
目标跟踪技术就是在给定视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标的大小与位置。为了提高目标跟踪技术的跟踪准确率和鲁棒性,首先进行目标检测获取目标位置和大小,目前常见的深度学习目标检测算法有两类,一类是基于候选区域的目标检测算法,典型算法如:R-CNN [2]、Fast R-CNN [3]、Faster R-CNN [4];另一类是基于回归的目标检测算法,典型算法如:YOLO [5]、SSD [6] 等。其中R-CNN算法是基于候选区域算法的基础,后续此类算法都是对R-CNN算法进行改进以获得更高的识别速度和识别率的算法。R-CNN的基本思想是利用选择搜索算法(Selective Search)在图像中提取可能包含目标的候选区域,然后用CNN提取特征,实现目标跟踪 [7]。而基于回归的YOLO和SSD算法,将分类和目标预测同时进行,其中YOLO算法每秒可处理45帧图像能够满足目标跟踪的实时性。
视频图像帧目标检测后,虽然获得了目标位置但缺乏对视频帧目标运动信息的连续性。传统的目标跟踪算法如KCF (Kernel Correlation Filter)算法具有较强的实时性,但当录制设备发生偏移时,会出现目标跟踪偏移,甚至丢失目标。
为了解决设备偏移带来的跟踪偏移和目标丢失问题,本文采用基于YOLO和KCF的目标跟踪算法,通过YOLO算法初始化KCF算法跟踪框,设置偏移误差率判定何时需对KCF算法跟踪框进行更新。
2. 图像预处理和目标检测
本文主要通过灰度化和图像增强法中的均值滤波法实现图像预处理,减少冗余信息,去除噪点和YOLO算法实现目标检测。
2.1. 图像增强
图像增强的方法按照不同作用域可分为空域和频域增强,空域有灰度变换、直方图均衡化和空域滤波等,频域增强有高通、低通和同态滤波等 [8]。本文使用灰度化和均值滤波法减少冗余信息,去除噪点。
1) 灰度化,在RGB模型中,如果R = G = B时,则彩色表示一种灰度颜色,其中R = G = B的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值),灰度范围为0~255。灰度化如图1所示。
Figure 1. Grayscale image
图1. 灰度化
2) 均值滤波是典型的线性滤波算法,该算法在图像目标像素上给定一个模板,该模版周围包括其周围邻近的像素,再将模板中的全体像素进行求平均值,用均值代替原像素值,以实现像素的平滑,突出细节信息,忽略边缘,达到去噪的目的。均值滤波法如图2所示。
Figure 2. Mean filtering method
图2. 均值滤波法
2.2. 目标检测
1) YOLO算法原理
YOLO算法在目标检测过程中采用了针对目标检测任务设计的CNN进行特征提取,通过全连接层对识别出来的目标进行位置预测和分类,YOLO算法的网络模型由输入层&#x