吴恩达deeplearning之CNN—目标检测(1)

最新推荐文章于 2024-07-29 09:11:11 发布

ice_actor

最新推荐文章于 2024-07-29 09:11:11 发布

阅读量6.6k

点赞数 5

分类专栏：机器学习

本文链接：https://blog.csdn.net/ice_actor/article/details/78574612

版权

本文介绍了深度学习中使用CNN进行目标检测的技术，包括目标定位、特征点检测、目标检测和卷积滑动窗口实现。通过神经网络输出边界框参数和分类标签，实现对象的定位和识别。滑动窗口方法虽然有效但计算成本高，通过将全连接层转换为卷积层能提高效率。

摘要由CSDN通过智能技术生成

1 目标定位

这一周学习的主要内容是对象检测，它是计算机视觉领域一个新兴的应用方向,相比两年前，它的性能也越来越好，在构建对象检测之前，需要先了解一下对象定位。
这里写图片描述
对于图片分类任务大家都耳熟能详，算法通过遍历如下图片来判断其中是不是汽车。而对象定位不仅需要算法判断图片中是不是汽车，还要在图片中标记处它的位置，用边框或红色方框把车圈出来，这就是定位分类问题，在后面的章节我们还会分享如果同一幅图片中有多个目标时应该如何检测，比如，你正在做一个自动驾驶程序，程序需要检测出其它的车辆、行人、摩托车等等。这里我们研究的定位分类问题，通常只有一个较大的对象位于图片正中间位置。
这里写图片描述
对于图片分类问题，把图片输入到多层卷积神经网络，神经网络会输出一个特征向量并反馈给softmax单元来预测图片类型，如果你还想定位图片中对象的位置的话可以让神经网络多输出几个单元，具体来说就是多四个标识对象边界框位置的参数 $b_x,b_y,b_h,b_w$ 。
本周课程的一些符号约定：图片左上角坐标 $(0,0)$ ，图片右下角坐标 $(1,1)$ ，对象边框中心点坐标 $(b_x,b_y)$ ，边框的高度 $b_h$ ，边框的宽度 $(b_w)$ ，因此训练集不仅包含对象的分类标签还要包含标识边框位置的四个参数。之后就可以按照监督学习算法输出一个分类标签还有四个参数值，从而给出被检测对象的边框位置，此例子中 $b_x$ 的理想值是0.5，因为它标识汽车位于图片水平方向的中间位置， $b_y$ 大约是0.7，表示汽车位于距离图片底部3/10的位置， $b_h$ 约为0.3，因为红色方框的高度是图片高度的大约0.3倍， $b_w$ 约为0.4，因为红色方框的宽度是图片宽度的0.4倍。
这里写图片描述
这里有pedestrain、car、motorcycle、background四个类，神经网络输出的是 bx,