李沐动手学视频笔记-计算机视觉-目标检测

幸运的悦子

已于 2022-12-26 16:36:59 修改

阅读量296

点赞数

分类专栏：李沐动手学文章标签：计算机视觉人工智能

于 2022-12-23 21:48:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a_145133/article/details/128421911

版权

李沐动手学专栏收录该内容

7 篇文章 0 订阅

订阅专栏

目标检测两大任务：1.区分类别 2.确定位置

锚框：

大多数目标检测是基于锚框：

1.提出多个锚框（边缘框）

2.预测锚框中是否含有关注物体

3.如果含有关注物体，进行偏移，调整锚框到真实边框

IoU交并比：计算两个框之间的相似度。取值范围0-1，0代表无重叠，1代表重合。

交并比就是两个框的交集比上并集

赋予锚框标号

训练过程中生成大量锚框，再为每个锚框赋予标号。锚框可能被标注成背景，要么就标注成相关的真实框以及偏移量。这大量锚框中可能会有大量负样本存在

非极大抑制（NMS）输出

消除重复框：1.选取非背景类的最大预测值。2.去掉所有其他与他的交并比（IoU）大于 $\Theta$ 的预测。3.重复上述过程，直到所有预测框要么被留下要么被消除。

目标检测常用算法

一.区域卷积神经网络（R-CNN）

特点：

使用启发式搜索算法选择锚框
使用预训练模型将每个锚框的画面感当作图片输入，对每个锚框提取特征
训练SVM对锚框进行预训练
使用线性回归预测锚框的偏移

由于每个锚框大小不一无法计算，使用兴趣区域池化层将锚框转化成固定大小的输出。

兴趣区域（RoI）池化层：给定锚框划分成nxm块，输出每块最大值，输出值大小总是nxm

二、Fast RCNN

改进：每个图片抽多个锚框，每个锚框都要进行卷积计算抽取特征，计算量太大。Fast RCNN不是对每锚框提取特征

而是对整个图片抽取特征
之后按照锚框在特征图提取相应位置的特征信息
然后使用Rol pooling将提取的特征图转化成大小相同
最后将多维的特征图结果传入全连接层进行预测类别和偏移量。

好处：减少特征计算量

三、Faster R-CNN

改进：使用神经网络替代选择搜索锚框算法

四、Mask R-CNN

如果有像素级别的标号，使用FCN来利用这些信息

总结：

R-CNN是最早、也是最有名的一类基于锚框和CNN的目标检测算法
Fast/Faster R-CNN持续提升性能
Faster RCNN和Mask R-CNN在要求精度高的场景下比较适用

四、单发多框检测（SSD）

对每个像素生成锚框总结:

SSD通过单神经网络来检测模型
在以像素为中心产生多个锚框
在多段输出上进行多尺度检测

五、YOLO

主要思想：与SSD一样通过单神经网络来检测，但是每个锚框之间不重复，减少计算量。并且没个锚框预测多个边缘框，防止一个锚框中出现多个物体。

幸运的悦子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
李沐动手学视频笔记-计算机视觉-目标检测

锚框：大多数目标检测是基于锚框：1.提出多个锚框（边缘框）2.预测锚框中是否含有关注物体3.如果含有关注物体，进行偏移，调整锚框到真实边框IoU交并比：计算两个框之间的相似度。取值范围0-1，0代表无重叠，1代表重合。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。