吴恩达《深度学习专项》笔记（十二）：目标检测与语义分割简介 (YOLO, U-Net)

最新推荐文章于 2025-04-01 15:22:49 发布

大局观选手周弈帆

最新推荐文章于 2025-04-01 15:22:49 发布

阅读量3.5k

点赞数 3

分类专栏：吴恩达深度学习文章标签：深度学习目标检测计算机视觉

本文链接：https://blog.csdn.net/a119334/article/details/126246853

版权

本文介绍了计算机视觉中的目标检测任务，从目标定位和关键点检测开始，深入探讨了YOLO算法和基于U-Net的语义分割。讲解了滑动窗口、预测边框、IoU、NMS等关键技术，并对YOLO和U-Net架构进行了总结。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这节课中，我们要学习计算机视觉中最重要的任务之一——目标检测任务。我们会先认识目标定位和关键点检测这两个比较简单的任务，慢慢过度到目标检测任务。之后，我们会详细学习目标检测的经典算法YOLO。最后，我们会稍微认识一下语义分割任务及适用于此问题的U-Net架构。

课堂笔记

目标定位

在图像分类问题中，给定一幅图片，我们只要说出图片里的物体是什么就行了。在这堂课要讨论的任务中，我们还要多做一件事——定位。我们要先用边框圈出图中的物体，再说出框里的物体是什么。这叫做带定位(localization)的分类问题。更进一步，如果我们不再是只讨论一个物体，而是要把图片中所有物体都框出来，并标出每一个物体的类别，这就是目标检测问题，

我们对分类任务的神经网络结构已经很熟悉了。那么，带定位的分类该使用怎样的网络呢？实际上，一个边框可以用边框中心和边框宽高这四个量表示。除了softmax出来的分类结果外，我们只要让网络再多输出四个数就行了。如下图所示：

这里，要统一一下对于边框的定义。我们用 $b_x, b_y$ 表示边框的中心坐标， $b_h, b_w$ 表示边框的高、宽。

来看一下标签 $y$ 的具体写法。假设一共有四类物体：行人、汽车、摩托车、背景（没有物体）。那么，标签 $y$ 应该用 $y=[p_c, b_x, b_y, b_h, b_w, c_1, c_2, c_3]^T$ 表示。其中， $p_c$ 表示图中有没有物体。若 $p_c=1$ ，则 $c_1, c_2, c_3$

最低0.47元/天解锁文章