cs231n笔记9—分割,定位,目标检测

语义分割

语义分割是指输入图像,并对图像中的每个像素做分类,为每个像素分配标签(如下图牛,树,草,天空)。语义分割并不区分同类目标。(分不出两头牛)
在这里插入图片描述
全卷积方法是指,把很多的卷积层堆叠在一起组成一个网络,每次卷积层都保持图像大小不变, 然后对每个像素做分类,用网络层一次性完成所有运算。
在多个卷积层之间先进行降采样,再进行上采样,使得输出图像的大小等同输入图像的大小

降采样方法有:最大池化(pooling)或跨卷积(strided convolution)。

跨卷积
在这里插入图片描述

上采样方法有: 最近距离去池化, 钉床函数去池化, 转置卷积

最近距离去池化或者钉床函数
在这里插入图片描述
转置卷积
在这里插入图片描述
转置卷积不做内积,而是取特征图的某个输入值,然后这个值乘以卷积核,以三乘三区域的方式复制这些值作为输出,用输入作权重,输出是带有权重的卷积核的叠加
在这里插入图片描述
输入是两个数字,卷积是三个数字,所以输出的结果就是用卷积核对输入做加权,最后对输出中的感受野重叠部分进行叠加,得到6个数字

分类,定位

我们想知道图像中内容的位置
在一个预训练的CNN网络上生成图像表示向量。然后用两个全连接层。
第一个全连接层用于图像的分类。使用Softmax,交叉熵等损失函数来计算分类损失。
第二个全连接层用于输出位置值(x,y,w,h)。使用L1损失,平滑L1损失L2等损失韩式来计算回归损失
网络会产生两个不同的输入,一个是类的分数,一个是边框坐标。
在这里插入图片描述
姿态估计
姿态估计是,输入图,输出人的关节/点位。这样网络就能预测出这个人的姿态。使用CNN网络,然后输出14个关节点的坐标值。分别计算14个关节点的回归损失,这里使用L2损失。然后对所有损失求和。

目标检测算法R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

大佬链接: https://blog.csdn.net/v_JULY_v/article/details/80170182.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值