【CS231n笔记】08 Spatial Localization and Detection

最新推荐文章于 2022-12-23 16:55:15 发布

binlearning

最新推荐文章于 2022-12-23 16:55:15 发布

阅读量567

点赞数

CC 4.0 BY-SA版权

分类专栏： CS231n笔记文章标签：深度学习 CS231n

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/binlearning/article/details/71437056

1.分类+定位
2.物体检测

计算机视觉任务一般可分为下列四类：
— 分类
— 分类+定位
— 检测
— 实例分割
这里写图片描述

1.分类+定位
分类：C个类别
输入：图像
输出：类别标签
评价指标：准确率
这里写图片描述
定位：
输入：图像
输出：边框(x,y,w,h)
评价指标：IoU(Intersection over Union)

分类+定位即同时完成上述两个任务

ImageNet数据集的分类+定位（CLS-LOC）任务：
共1000类（同分类任务一样）
每张图像中有一类物体，并且最少有一个位置边框
每类约有800训练图像
算法每次生成5个预测，包括类别标签及位置边框，即top-5预测
预测正确的条件是，在5个预测中分类正确且位置边框>=0.5 IoU
这里写图片描述

思路#1：将定位视为回归问题
图像经过神经网络后输出位置边框坐标，将其与正确坐标的L2距离作为损失函数。
这里写图片描述
基本流程如下：
Step1：训练一个分类模型（如AlexNet, VGGNet, GoogLeNet等）

Step2：附加一个新的全连接层“regression head”到网络上

Step3：利用SGD和L2损失单独训练“regression head”

Step4：在测试时同时使用两个全连接层完成两个任务
这里写图片描述

分类后定位 vs. 未分类定位
这里写图片描述

在何处附加“regression head”？
这里写图片描述

另：定位多个目标，即在每张图像

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。