cs231n笔记9—分割，定位，目标检测

最新推荐文章于 2022-07-22 18:20:13 发布

kingsure001

最新推荐文章于 2022-07-22 18:20:13 发布

阅读量263

点赞数

分类专栏：深度学习文章标签：卷积网络计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/kingsure001/article/details/108087376

版权

深度学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

语义分割

语义分割是指输入图像，并对图像中的每个像素做分类，为每个像素分配标签（如下图牛，树，草，天空）。语义分割并不区分同类目标。（分不出两头牛）
在这里插入图片描述
全卷积方法是指，把很多的卷积层堆叠在一起组成一个网络，每次卷积层都保持图像大小不变，然后对每个像素做分类，用网络层一次性完成所有运算。
在多个卷积层之间先进行降采样，再进行上采样，使得输出图像的大小等同输入图像的大小

降采样方法有：最大池化(pooling)或跨卷积(strided convolution)。

跨卷积
在这里插入图片描述

上采样方法有: 最近距离去池化, 钉床函数去池化, 转置卷积

最近距离去池化或者钉床函数
在这里插入图片描述
转置卷积

转置卷积不做内积，而是取特征图的某个输入值，然后这个值乘以卷积核，以三乘三区域的方式复制这些值作为输出，用输入作权重，输出是带有权重的卷积核的叠加

输入是两个数字，卷积是三个数字，所以输出的结果就是用卷积核对输入做加权，最后对输出中的感受野重叠部分进行叠加，得到6个数字

分类，定位

我们想知道图像中内容的位置
在一个预训练的CNN网络上生成图像表示向量。然后用两个全连接层。
第一个全连接层用于图像的分类。使用Softmax，交叉熵等损失函数来计算分类损失。
第二个全连接层用于输出位置值(x,y,w,h)。使用L1损失，平滑L1损失L2等损失韩式来计算回归损失
网络会产生两个不同的输入，一个是类的分数，一个是边框坐标。
在这里插入图片描述
姿态估计
姿态估计是，输入图，输出人的关节/点位。这样网络就能预测出这个人的姿态。使用CNN网络，然后输出14个关节点的坐标值。分别计算14个关节点的回归损失，这里使用L2损失。然后对所有损失求和。