分为语义分割和实例分割
语义分割:只区分不同类别,不分具体类别中数量
实例分割还区分类别中每个个体
逐像素分类,对比交叉熵
MIO u计算所有类别平均值
Unet医学领域用的多
网络第一层一般都特征提取层、越来越 扁是特征图个数越来越多,越来越矮是hw越来越小,左侧是编码层、将数据做成一个特征。输出大小和输入大小一定一致,因为是按像素点。下采样642327165874上采样还原(解码)
Unet ++
特征融合,拼接更全面
和densenet思想一致
更容易剪枝
Unet
实例分割
Rsu reset和unet结合一起。 把原来unet中的每个卷积再用一个unet来替换
数据增强部分 -albumentations
U2-net
将画像变成素描
U形结构:左边编码(下采样)右边解码(上采样)
SOD显著性检测:告诉哪个是前景哪个是背景
融合了不同感受野
RSU
288*288生成的还是288*288的特征图
deeplab: unet是局部的小目标
空洞卷积,将特征图感受野按2n-1扩大,对全局信息处理的更好,
SPP层:
Deeplabv3+ VOC数据集
医学心脏视频分割
block_size把视频分成好几块
R(2+1)D网络
视频 thwc四个维度
R2D:将tc合在一起相乘
C3D:5*5 -》5*5*5 一次处理5帧的图像 R-》resnet
MCX:2D和3D的结合体,3D放后面效果好
MASK_RCNN
不光能检测还能分割
每层做什么
FPN层金字塔网络
特征图大小变为原来一半,但特征图个数翻倍
自上而下P5 C5,
RPN和fast rcnn的RPN是差不多
2K看框内是前景还是背景
cls 分类 reg 回归
4k对当前候选框微调 长度宽度位置 4个微调的值
区别:共享卷积3*3
建议层
回归值:框的改变
NMS:同一个物体上重叠了很多框,非极大值抑制,只保留一个框,可能性最高的
训练一个模型,分类,坐标怎么偏移量才能到正确位置
正负样本的准备工作
ROI Align层
双线性插值:之前选一个点,现在选四个点去做
ROI Align比ROI Pooling 对应中心点更准确
第一个阶段是FPN层,是五个阶段来提取特征的,
第二个阶段,每个特征图生成了很多不同大小的框
第三个阶段 过滤的
第四层 构建一个训练的样本,实际是哪个类别,跟哪个类别重复值最大,就是哪个类别
第五层 偏移量