【笔记】动手学深度学习 - 物体检测和数据集

最新推荐文章于 2024-09-10 17:16:33 发布

echo_gou

最新推荐文章于 2024-09-10 17:16:33 发布

阅读量2.1k

点赞数

分类专栏： # 动手学深度学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/echo_gou/article/details/121439218

版权

动手学深度学习专栏收录该内容

17 篇文章

订阅专栏

本文探讨了如何利用深度神经网络进行图像定位，介绍了边缘框的定义和表示方式。特别关注了COCO数据集，一个包含80种物体的大型目标检测基准，以及如何在文本文件中组织每个物体的图片名、类别和边框坐标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

边缘框：

边缘框可以用四个数字定义：左上（x，y）和右下的（x，y）或者左上的（x，y）和宽高。

用于做图像定位的深度神经网络结构与图像分类类似，只是最后一层是一个包含4个神经元的全连接层，并使用均方误差或绝对误差作为损失函数。

数据集：

我们图片分类数据集中，把不同的图片放入不同的文件夹来表示不同的类别。而检测的时候就不能这样划分，因为一张图片中可能有多个物体。

所以每行表示一个物体（假设使用txt存放）：

每行包含图片文件名，物体类别，边缘框。

常用的目标检测数据集COCO：cocodataset.org（80物体，330k图片，1.5M物体）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。