Yolov2-学习记录

YOLOv2是优化后的实时目标检测系统,提升了召回率和定位精度,使用批量归一化和去除全连接层等改进。YOLO9000能识别9000多种物体,利用WordTree结构进行层次分类。通过K-means聚类优化边界框预测,并采用DarkNet-19提升速度。
摘要由CSDN通过智能技术生成

引入:本次学习内容基本来自于Joseph Redmon, Ali Farhadi编写的的《YOLO9000: Better, Faster, Stronger》,以及部分讲解视频,本学习记录仅为个人学习收获,部分内容存在纰漏烦请各位大佬批评指正。
(一)摘要:论文介绍了YOLOv2和YOLO9000,两种实时检测系统。YOLOv2是目前最先进且速度更快的检测系统,可以在不同图像尺寸下平衡速度和准确性。YOLO9000是一种实时框架,可以同时检测9000多个物体类别,并通过联合优化检测和分类来缩小数据集规模差距。作者还提到了一些技术推广的可能性,如使用WordTree进行更详细的图像分类输出、使用层次分类进行数据集组合以及应用多尺度训练等。未来的工作包括利用类似技术进行弱监督图像分割,并改进检测结果的匹配策略

(二)发表时间:2016

(三)关键词:目标检测,卷积神经网络,单阶段检测

(四)学习记录:

YoLoV2以及YoLo9000,之所以是yolo9000是因为它可以识别超过9000种类别的物体。相比于其他先进的检测网络,yolo存在许多问题,例如大量的定位错误,相比较于region proposal方法,yolo的召回率也很低。因此,yolov2主要集中在提高召回率和定位准确性的同时保持分类准确性。

于是作者提出以下改变措施。

批量归一化,批归一化在加速收敛的同时,消除了对其他形式正则化的需求,这对于提高性能有着显著的改进。

YOLOv2在ImageNet上,先将分类网络以完整的448×448分辨率进行微调,进行10个epochs的训练。这使得网络有时间调整其滤波器以更好地适应更高分辨率的输入。然后再对结果网络进行目标检测的微调。这个高分辨率分类网络使整体的mAP提高了近4%。

YOLO通过在卷积特征提取器之上的全连接层直接预测边界框的坐标。但是在v2版本中,去掉了全连接层,而是采用一个“achor”框来预测bbox。同时调整了输入图像网格大小为奇数,这样就会有一个单独的中心单元格。因为作者认为,对于图像,特别是大型对象,往往占据图像的中心,因此在中心位置预测这些对象比在附近的四个位置预测更好。

为了获得更好的先验框,yolov2采用了k-means聚类方法对边界框进行分析。

网络在输出特征图的每个单元格中预测5个边界框。网络为每个边界框预测5个坐标:tx、ty、tw、th和to。如果单元格相对于图像的左上角有偏移(cx, cy),并且边界框先验具有宽度和高度pw、ph。

同时yolo为了获得更细致的特征,引入了穿越层(passthrough layer),穿越层通过将高分辨率特征与低分辨率特征连接起来,将邻近特征堆叠到不同的通道中,而不是按空间位置进行堆叠,类似于ResNet中的身份映射(identity mappings)的方式。

Yolov2为了更快的速度,放弃使用V1版本的googleNet,而是使用了DarkNet-19。它有19个卷积层和5个最大池化层。从表中我们可以看出,DarkNet的大部分卷积核都是3×3以及1×1的大小,且只有卷积层核最大池化层组成。在这之中,使用全局平均池化进行预测,并使用1×1的滤波器在3×3卷积之间压缩特征表示。

另外一个则是作者建立了数据集的wordtree结构,将物体进行分类,采用树状结构进行表示,而不是像以往那样的平行结构。层次分类的数据集组合对分类和分割领域会有帮助。其中,wordtree的每一个节点多少一类,每一个子节点都属于同一类,都可以对他们进行softmax处理。如果想寻找某个概率,我们只需沿着树的路径到达根节点,并将条件概率相乘。

 

        

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值