图像分割:
1.语义分割:把每个像素都打上标签(这个像素点是人,树,背景等)。语义分割只区分类别,不区分类别中具体单位。相当于逐像素做二分类,判断是属于前景还是背景。
2.实例分割:不仅要区分类别,还要区分类别中每一个个体。
对数损失函数-二元交叉熵损失函数(二分类):逐像素的交叉熵
1.考虑样本均衡问题
根据前景和背景的比例做一个权重项:
表示样本i的label,正类为1,负类为0
表示样本i预测为正类的概率,当预测为正类的概率越大,损失越小
2.样本也有难易之分,就像玩游戏一样,难度越高的boss奖励越高。在以下的式子中,通过设置的值,让难识别的像素点权重大一些,容易识别的则权重小一些:
Gamma通常设置为2,例如正则预测样本概率为0.95,;如果正则预测样本概率是0.5,则。(相当于样本的难易权值),再加上正负样本比例设置的权值,那么这就是focal loss。公式如下:
MIoU评估标准:
IoU(Intersection over Union,交并比)
多分类任务时,IoU=(A∩B)/(A∪B),A∩B是两个区域段交集,A∪B是两个区域段并集
MIoU:就是计算所有类别的平均值,一般当做分割任务评估指标。
eg:
效果图:
卷积神经网络:
与传统网络的区别是其输入的数据是个3维的矩阵h*w*c(channel),多了个深度depth。
整体架构:
输入层
卷积层:把图像分成每个小区域,然后和权重矩阵点乘相加得到新的特征矩阵
涉及参数:
滑动窗口步长
卷积核尺寸
边缘填充
卷积核个数
卷积结果计算公式:
长度:
宽度:
其中、表示输入的宽度、长度;、表示输出特征图的宽度、长度;F表示卷积核长和宽的大小;S表示滑动窗口的步长;P表示边界填充(加几圈0)。
卷积参数共享:对每个区域的卷积权重参数都设置成一样的,可以大大减少计算参数。
池化层(pooling):做压缩的,也可以说是下采样。
最大池化
平均池化:经大部分学者证实,效果不如最大池化
全连接层
图像颜色通道:
彩色图像是有RGB3个颜色通道的,在做计算时,要让每个颜色通道分别去做计算(R channel,G channel,B channel)。最终再把每个通道卷积完的结果加在一起,然后再加一个偏置项(bias)就可以得到最终结果了。
感受野:
当前最后那个值,是由前面多少个原始数据计算得到的,就可以感受到多大范围。一般情况下希望感受野越大越好。堆叠小的卷积核所需要的的参数更少一些,并且卷积过程越多,特征提取就越细致,加入的非线性变换也就随之增多,还不会增加权重参数个数,这就是VGG网络的基本出发点,用小的卷积核来完成整体特征提取操作。
神经网络层数:
在神经网络中,只有带参数计算的才能叫一层神经网络。例如卷积层、全连接层就是带参数计算的,而激活层、池化层都是不带参数计算的。