吴恩达《深度学习-卷积神经网络》3--目标检测

最新推荐文章于 2024-08-07 15:35:11 发布

寻梦梦飞扬

最新推荐文章于 2024-08-07 15:35:11 发布

阅读量1.3k

点赞数

分类专栏：深度学习文章标签：目标定位特征点检测 YOLO算法非极大值抑制 Anchor Boxes

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41043240/article/details/79376336

版权

本文深入探讨了深度学习中的目标检测问题，特别是吴恩达课程中的卷积神经网络应用。介绍了目标检测与分类的区别，讲解了定位参数的意义、基于滑动窗口的方法，重点阐述了YOLO算法的工作原理，包括如何通过网格划分图像，处理不同尺寸图像的策略，以及利用非极大值抑制来优化边界框预测，确保检测结果的准确性。

摘要由CSDN通过智能技术生成

1. Object Localization目标定位

1）什么是目标定位

分类解决了这是什么的问题，比如下图，这是一辆车，；

定位问题则是要把车的位置标识出来，叫做定位分类问题；

检测问题后面会讲，检测问题就是在一幅图像中有多个对象时，应该如何检测并确定其位置。

分类和定位问题使用的图像一般只有一个对象，位于图像的中间，而检测所用的图像一般会有多个对象，甚至是多个不同分类的对象

2）如何在分类的基础上实现目标定位

如上图，假设一共有行人、汽车、摩托、背景四类，通过softmax输出预测，那么要同时完成定位问题，可以增加一个边界输出，边界由中心点坐标以及长款四个参数确定，分别为bx,by,bh,bw，也就是在softmax的输出中增加四个参数。

如涉及softmax输出为下图：

Pc标识是否为背景，1表示是其他对象，0表示是背景；

bx,by,bh,bw是定位边界的参数，一般设定图片左上角为原点(0, 0)，右下角为(1, 1)。在模型训练时，bx、by、bh、bw都由人为确定其数值。例如上图中，可得bx=0.5，by=0.7，bh=0.3，bw=0.4；

c1,c2,c3表示是否输入行人、汽车、摩托类。

可以看出当Pc=1时其他参数才有意义，当Pc=0时，其他参数没有意义，所以若损失函数采用平方误差的形式，应当如下：

这里为了简化说明使用平方误差，实际中也可以对c1,c2,c3进行最大似然估计，最后只输出一个值，即对象从属的类，对边界参数通常采用平方误差的形式，对Pc采用逻辑回归损失函数，但直接使用平方误差也是可以的。

2. Landmark Detection特征点检测

除了使用矩形区域检测目标类别和位置外，我们还可以仅对目标的关键特征点坐标进行定位，这些关键点被称为landmarks。

例如人脸识别，可以对人脸部分特征点坐标进行定位检测，并标记出来，如下图所示：

该人脸检测模型共检测人脸上64处特征点，加上是否为face的标志位，输出label共有64x2+1=129个值。

如果有足够多的数据来输出这些特征，那么可以利用这些特征做很多有趣的事情，比如人物表情识别、判断人物姿态等

此方法发挥作用的关键是，设置的点的意义在所有图片中必须保持一致，也就是某个点代表某个特征，那么所有图像上这个点都必须代表这个特征，如点1代表右外眼角，点2代表右内眼角，那么所有的图片都必须按这个顺序标识。

最低0.47元/天解锁文章

寻梦梦飞扬

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。