2018-02-27 lecea paper大讲堂
作者:杨眷玉 电子科大 专业硕士 2013
Research and Implementation of Object Detection Based On Convolutional Neural Networks
摘要
物体识别是计算机视觉中的一个研究方向,也是当前比较热门的研究领域。在人们的需求不断增长的今天,物体识别在安全、科技、经济方面正在起着举足轻重的作用,安防领域和交通监管部门也对物体识别提出了迫切的要求,所以研究物体识别对社会的未来有非常重要的意义。2006 年一种新的方法深度神经网络的出现,标志着以深度学习为新纪元的时代的到来,卷积神经网络作为深度学习方法之一,凭借着优秀的性能和无限的潜力成为了竞相研究的对象,并且已经在图像识别领域取得巨大的成功。因此,基于卷积神经网络的物体识别已经成为了物体识别领域的一个研究热点。
本论文重点阐述了一个改进 YOLO 的卷积神经网络模型,改进后网络性能得到了较为明显的提升,具体的工作如下:
1.改进的模型修改了 YOLO 网络的损失函数。改进 YOLO 的模型将比例的形式替换了原有差值的形式。相对于旧的损失函数,新的损失函数显得更加灵活,对网络误差的优化更合理。
2.改进的模型在 YOLO 网络中增加了 1×1 的卷积核。这样就减少该层的参数数量,使网络各层提取的特征过渡更加平滑。
3.改进的模型采用了新的 inception 结构。因为 Inception 结构本身就有加深和加宽网络的能力,并且在增强网络性能的同时,还能减少网络参数的数量。
4.改进的模型添加了一层时空金字塔下采样层,这样就能更充分地利用原图像中的信息,增强网络的识别性能。另外,由于时空金字塔下采样层本身具有的优势,使得网络在时间性能上也有提高。
最后,在 pascal voc2007 数据库和 pascal voc2012 数据库上对改进 YOLO 的卷积神经网络进行了实验,并用混淆矩阵、时间复杂度和信息可视化三种工具对实验数据进行了分析和总结。实验的结果表明,改进 YOLO 发网络无论在识别性能方面还是在时间效率方面都领先于其他网络,并且在国际领先水平的网络面前也有一定的竞争能力。由于在时间性能上的良好表现,所以本文将该网络模型的研究成果投入到实际应用中,开发并实现了一个改进 YOLO 的卷积神经网络系统。
关键词:卷积神经网络,inception 结构,时空金字塔下采样,物体识别
Keywords: convolution neural network, inception structure model, spatio-temporal pyramid, Object recognition
第一章绪论
1.1 研究工作的背景与意义
物体识别技术是指对日常生活中图像或视频中的物体进行识别所采用的各项技术,体现了在任意环境下对观察到的物体进行检测、分割和识别的能力。
1.2 国内外发展现状
物体识别在计算机视觉领域指的是在一张图像或一组视频序列中找到给定的物体,并且能够用物体框框出物体的具体位置。
物体识别的主要步骤包括:
特征提取:在识别的前期将图像中隐含的特征表达给提取出来(尽可能多地提取图像中的特征信息)
特征处理:对提取的特征进行进一步提纯和精炼,包括特征编码、特征汇聚等处理方式。
物体分类:将前面精炼过的特征当作图像的表达去训练分类器,然后用分类器对新的图像进行分类判别。
传统的物体识别方法可以从底层特征提取、特征编码、特征汇聚和使用分类器分类这四个方面来叙述。
底层特征提取:
基于兴趣点的检测
使用密集提取的方式(尺度不变特征转换 SIFT、方向梯度直方图 HOG )
将兴趣点检测与密集提取相结合的方式
(近年来深度学习领域有一个重要的观点,就是直接从图像像素学习到的特征比手工特征更有效,所以凡是基于深度学习方法的算法,都尽可能的去除了手工提取特征的方法,而直接从原始图像中提取特征。)
特征编码:
向量量化编码
稀疏编码
超向量编码
Fisher 向量编码
特征汇聚:
最大值汇聚
平均值汇聚
使用分类器分类:
支持向量机
softmax(适用于二分类,而 softmax 分类器是适用于多分类,虽然通过多个二分类器的级联能够实现多分类效果,但总体来讲,支持向量机分类器依然不如 softmax 分类器。 )
深度学习的三点巨大的优势:
深度学习适合处理大数据。
它不是一个黑箱系统,其功能和结构都已经展示出来。
它几乎是唯一的端到端机器学习系统。
卷积神经网络(CNN)
1.3 本文的主要研究内容
改进 YOLO 的卷积神经网络在物体识别领域方向的应用
对当前物体识别和卷积神经网络 CNN 的现状进行了归纳和总结,并对物体识别的基础有条理地进行了汇总和概括。
结合其他技术设计了改进 YOLO模型的卷积神经网络,该网络既保留并有效延续了原有网络的优势,同时又在原有网络的基础上融入了新的理念和设计,解决了原网络中的诸多不足,大大增强了该网络对于物体识别的性能,提高了网络的识别率和时间效率。
使用 pascal voc2007 数据库和 pascal voc2012 数据库对改进 YOLO 的神经网络进行训练与测试,并从识别性能和时间性能的角度对实验数据进行分析和归纳。另外