PAN网络中使用的loss
(5)式中的4个loss函数,第一个是文本区域loss,第二个是核(kernel)区域loss,两个loss都是使用的diceloss;而第三个loss Lagg用于衡量文本实例和其对应kernel的loss,其作用是保证同一文本实例的kernel和文本实例内其他像素之间的距离<.第四个loss函数Ldis loss用于是不同文本实例的kernel的loss,其作用是保证任意两个kernel之间的距离>;
目录
1.dice loss
Dice Loss最先在VNet这篇文章中提出,多被广泛用于医学影像分割之中。
1.Dice系数与Dice Loss
Dice系数是一种集合相似度度量函数,通常用于计算亮哥样本的相似度,取值范围在【0,1】:
其中分子绝对值中的部分是X与Y的交集,分母|X|和|Y|分别表示X和Y的元素个数,其中,分子的系数为2是因为分母存在重复计算X和Y之间的共同元素的原因。
Dice loss:
Laplace smoothing:
Laplace smoothing是一个可选改动,即将分子分母全部加1:
使用Laplace smoothing的好处:
(1)避免当|X|和|Y|都为0时,分子被除0的问题
(2)减少过拟合
2.Dice系数计算
首先近似为预测图pred和label GT之间的点乘,并将点乘的元素的结果相加:
(1)预测分割图与GT分割图的点乘:
(2)逐元素相乘的结果元素的相加和:
PAN网络中的dice loss使用方式:
2.第三个loss
其中,N是图像中文本实例的数量,Ti表示第i个文本实例,Ki是文本实例对应的kernel。D(p,ki)定义了文本实例Ti内的像素p和Ki之间的距离,其中,agg是一个常量,默认是0.5,Fp是网络在像素p处输出的相似度向量,g(Ki)是Ki的相似度向量,计算公式为:
g(.)的计算就是对于Ki里的每一个像素q,网络在像素q处输出的相似度向量除以Ki的像素点数量,|Ki|指Ki的L1范数,这里代表的就是Ki里像素点的数量。
D(p,Ki)里的||F(p)-G(Ki)||表示F(p)-G(Ki)的L2范数,是一个用于衡量像素点到Ki的距离的值,值越小表示相似度越大,公式中距离小于 agg的像素点就没有必要参与loss计算了,关注哪些距离远的值即可。
3.第四个loss
对于每一个文本实例kernel,分别计算和其他kernel的距离。(4)式中,dis是一个常量,默认3.当两个kernel之间的距离时,就表示这两个kernel的距离已经足够远了。
参考内容链接:
[1]https://zhuanlan.zhihu.com/p/86704421
[2]https://zhuanlan.zhihu.com/p/81415166
[3]https://zhuanlan.zhihu.com/p/79111059
[4]https://www.nps.ink/360167.html