Yolov2-学习记录

最新推荐文章于 2024-09-16 21:12:20 发布

羊村第一突破手懒羊羊

最新推荐文章于 2024-09-16 21:12:20 发布

阅读量35

点赞数

文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/lzf767801/article/details/131900553

版权

YOLOv2是优化后的实时目标检测系统，提升了召回率和定位精度，使用批量归一化和去除全连接层等改进。YOLO9000能识别9000多种物体，利用WordTree结构进行层次分类。通过K-means聚类优化边界框预测，并采用DarkNet-19提升速度。

摘要由CSDN通过智能技术生成

引入：本次学习内容基本来自于Joseph Redmon, Ali Farhadi编写的的《YOLO9000: Better, Faster, Stronger》，以及部分讲解视频，本学习记录仅为个人学习收获，部分内容存在纰漏烦请各位大佬批评指正。
（一）摘要：论文介绍了YOLOv2和YOLO9000，两种实时检测系统。YOLOv2是目前最先进且速度更快的检测系统，可以在不同图像尺寸下平衡速度和准确性。YOLO9000是一种实时框架，可以同时检测9000多个物体类别，并通过联合优化检测和分类来缩小数据集规模差距。作者还提到了一些技术推广的可能性，如使用WordTree进行更详细的图像分类输出、使用层次分类进行数据集组合以及应用多尺度训练等。未来的工作包括利用类似技术进行弱监督图像分割，并改进检测结果的匹配策略

（二）发表时间：2016

（三）关键词：目标检测，卷积神经网络，单阶段检测

（四）学习记录：

YoLoV2以及YoLo9000，之所以是yolo9000是因为它可以识别超过9000种类别的物体。相比于其他先进的检测网络，yolo存在许多问题，例如大量的定位错误，相比较于region proposal方法，yolo的召回率也很低。因此，yolov2主要集中在提高召回率和定位准确性的同时保持分类准确性。

于是作者提出以下改变措施。

批量归一化，批归一化在加速收敛的同时，消除了对其他形式正则化的需求，这对于提高性能有着显著的改进。

YOLOv2在ImageNet上，先将分类网络以完整的448×448分辨率进行微调，进行10个epochs的训练。这使得网络有时间调整其滤波器以更好地适应更高分辨率的输入。然后再对结果网络进行目标检测的微调。这个高分辨率分类网络使整体的mAP提高了近4%。

YOLO通过在卷积特征提取器之上的全连接层直接预测边界框的坐标。但是在v2版本中，去掉了全连接层，而是采用一个“achor”框来预测bbox。同时调整了输入图像网格大小为奇数，这样就会有一个单独的中心单元格。因为作者认为，对于图像，特别是大型对象，往往占据图像的中心，因此在中心位置预测这些对象比在附近的四个位置预测更好。

为了获得更好的先验框，yolov2采用了k-means聚类方法对边界框进行分析。

网络在输出特征图的每个单元格中预测5个边界框。网络为每个边界框预测5个坐标：tx、ty、tw、th和to。如果单元格相对于图像的左上角有偏移(cx, cy)，并且边界框先验具有宽度和高度pw、ph。

同时yolo为了获得更细致的特征，引入了穿越层（passthrough layer），穿越层通过将高分辨率特征与低分辨率特征连接起来，将邻近特征堆叠到不同的通道中，而不是按空间位置进行堆叠，类似于ResNet中的身份映射（identity mappings）的方式。

Yolov2为了更快的速度，放弃使用V1版本的googleNet，而是使用了DarkNet-19。它有19个卷积层和5个最大池化层。从表中我们可以看出，DarkNet的大部分卷积核都是3×3以及1×1的大小，且只有卷积层核最大池化层组成。在这之中，使用全局平均池化进行预测，并使用1×1的滤波器在3×3卷积之间压缩特征表示。

另外一个则是作者建立了数据集的wordtree结构，将物体进行分类，采用树状结构进行表示，而不是像以往那样的平行结构。层次分类的数据集组合对分类和分割领域会有帮助。其中，wordtree的每一个节点多少一类，每一个子节点都属于同一类，都可以对他们进行softmax处理。如果想寻找某个概率，我们只需沿着树的路径到达根节点，并将条件概率相乘。