yolov7介绍:
1、主要贡献
主要是现有的一些trick的集合以及模块重参化和动态标签分配策略,最终在 5 FPS 到 160 FPS 范围内的速度和准确度都超过了所有已知的目标检测器。
当前目标检测主要的优化方向:更快更强的网络架构;更有效的特征集成方法;更准确的检测方法;更精确的损失函数;更有效的标签分配方法;更有效的训练方法。
2、主要思路
按照论文,目前模型精度和推理性能比较均衡的是yolov7 模型(对应的开源git版本为0.1版)。根据源码+导出的onnx文件+“张大刀”等的网络图(修改了其中目前我认为的一些bug,增加一些细节)。重新绘制了yoloV7 0.1版本的非常详尽网络结构。注意:
1)其中的特征图结果维度注释是按照箭头的流方向,不是固定的上下方向。
2)输入输出仅仅是指当前模块的输入输出,整体需要根据流方向累乘计算最终的结果。
3)该模型版本没有辅助训练头。
整体上和YOLOV5是相似的,主要是网络结构的内部组件的更换(涉及一些新的sota的设计思想)、辅助训练头、标签分配思想等
3、具体细节
1)input
整体复用YOLOV5的预处理方式和相关源码,唯一需要注意的是,官方主要是在640*640和1280*1280这样的相对较大的图片上进行的训练和测试。
具体参考我的另一篇YOLOV5博客