YOLOv1细节理解（自用）

最新推荐文章于 2024-11-04 22:50:28 发布

m0_53955985

最新推荐文章于 2024-11-04 22:50:28 发布

阅读量140

点赞数 4

分类专栏：计算机视觉文章标签： YOLO 计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_53955985/article/details/140320691

版权

计算机视觉专栏收录该内容

4 篇文章 3 订阅

订阅专栏

YOLOv1 unified the object detection steps by detecting all the bounding boxes simultaneously.

which grid cell is responsible for predicting an object？
物体中心所落在的网格负责预测物体

输出为S*S*(5*B+C)tensor [7*7*30]
5对应着5个预测值，C表示共有多少个标签类别

找到负责框出物体的网格，再根据找到的网格去训练最适合的Bounding Box
其余的网格置信度为0

confidence是针对每一个Bounding Box，而类别概率则针对的是每一个网格。
也就是说每一个网格会生成类别标签，只有网格包含物体中心的对应的Bounding Box才会生成confidence

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

m0_53955985 CSDN认证博客专家 CSDN认证企业博客

码龄4年

7: 原创

131万+: 周排名

9万+: 总排名

4万+: 访问

: 等级

201: 积分

57: 粉丝

123: 获赞

6: 评论

585: 收藏

私信

关注

热门文章

分类专栏

最新评论

DETR精读
c__yy: Object queries原来理解为可学习的位置编码
DETR精读
m0_53955985: 划分后的图像包含了足够的位置信息，可以不用加位置编码；对于自然语言来说，不同的语序代表了不同的语义，词语之间的位置比较重要，所以v有必要包含位置信息。个人理解是这样。
DETR精读
龚ZT: 那这样说的话，原版Transformer里的V也不用加位置信息，可是为什么又加了
DETR精读
m0_53955985: 可以把q理解为需要查询的内容，k则是进行匹配的关键字，关键字则对应着指向对应的内容k。qk相乘代表衡量二者的相似性，这两个参数加上位置编码效果会更好，而v所表示的原图内容可以不用加位置信息。
DETR精读
粼粼淇: 为什么q和k加位置编码，而v不需要加上位置编码，解释的有些没理解

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。