语义分割
语义分割是指输入图像,并对图像中的每个像素做分类,为每个像素分配标签(如下图牛,树,草,天空)。语义分割并不区分同类目标。(分不出两头牛)
全卷积方法是指,把很多的卷积层堆叠在一起组成一个网络,每次卷积层都保持图像大小不变, 然后对每个像素做分类,用网络层一次性完成所有运算。
在多个卷积层之间先进行降采样,再进行上采样,使得输出图像的大小等同输入图像的大小
降采样方法有:最大池化(pooling)或跨卷积(strided convolution)。
跨卷积
上采样方法有: 最近距离去池化, 钉床函数去池化, 转置卷积
最近距离去池化或者钉床函数
转置卷积
转置卷积不做内积,而是取特征图的某个输入值,然后这个值乘以卷积核,以三乘三区域的方式复制这些值作为输出,用输入作权重,输出是带有权重的卷积核的叠加
输入是两个数字,卷积是三个数字,所以输出的结果就是用卷积核对输入做加权,最后对输出中的感受野重叠部分进行叠加,得到6个数字
分类,定位
我们想知道图像中内容的位置
在一个预训练的CNN网络上生成图像表示向量。然后用两个全连接层。
第一个全连接层用于图像的分类。使用Softmax,交叉熵等损失函数来计算分类损失。
第二个全连接层用于输出位置值(x,y,w,h)。使用L1损失,平滑L1损失L2等损失韩式来计算回归损失
网络会产生两个不同的输入,一个是类的分数,一个是边框坐标。
姿态估计
姿态估计是,输入图,输出人的关节/点位。这样网络就能预测出这个人的姿态。使用CNN网络,然后输出14个关节点的坐标值。分别计算14个关节点的回归损失,这里使用L2损失。然后对所有损失求和。
目标检测算法R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
大佬链接: https://blog.csdn.net/v_JULY_v/article/details/80170182.