车道线分割项目记录-Discriminative_loss

最新推荐文章于 2024-05-05 18:54:10 发布

Swayzzu

最新推荐文章于 2024-05-05 18:54:10 发布

阅读量1.7k

点赞数 1

分类专栏： CV 文章标签： pytorch 深度学习 python

本文链接：https://blog.csdn.net/swayzzu/article/details/122498274

版权

CV 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

一、损失函数原理

主要是看明白了每个符号代表的意思就能明白了。

1. L_var

L_var是方差损失，也就是一条车道线的像素点之间的方差越小越好。上面的式子中，前面两个求和以及1/C，1/N，就是为了平均这个损失值，取所有的车道线，再取所有的像素点，计算完了对所有车道线以及所有像素点求均值。其中C就是车道线数量，N_c就是对应车道线所包含的像素点数量。

后半部分的 $[x]_+$ ，这个式子就是取max(0, x)，因为损失值最小是0，因此如果里面的数小于0了，结果就是0。

再往里，||a-b||，这个就是求距离了，是二范数，也就是求个欧式距离。二者之间的距离如果比设定的像素点相似度阈值 $\delta _v$ ，比如设为0.5，比这个还小，那么就认为他们确定属于一条线了，结果就是没有损失，就是0。如果比阈值大，就是有损失。

这样应该就能看明白第一个式子了，就是取一条车道线对应的所有像素点的均值 $\mu _c$ ，然后用预测的属于这条车道线的所有像素点 $x_i$ ，和均值计算距离，再减去阈值作为损失，如果距离很大，就有损失，距离小于设定的阈值，就没损失。就可以了。

2. L_dist

L_dist是距离损失，也就是两个车道线之间的距离，这个距离应该越大越好，因此，对距离取个负号，就变成了越小越好，就符合损失函数的特征了。上面式子的前一部分，也是用来求均值的，因为我们是要对两两之间求距离，也就是说，假如我们有3根车道线，分别为0,1,2，那么计算距离的时候，是计算了0-1 0-2 1-0 1-2 2-1 2-0之间的距离，正反都算了，因此总共算了C(C-1)这么多次。后半段式子里面的 $\delta _d$ ，就是我们设定的两条线的距离阈值，比如设为3，要是比这个距离小，比如是1.2，那就有损失，要是两条线距离很大，是8，那说明已经很好了，就没损失了。

至于下面的alpha和beta，就是权重因子。假如距离损失一算，是4,5,6这么大的数，而方差损失一算，是0.04,0.03这么大的数，数量级不一样，那么就需要调整了，通过权重因子，把他们调整到同一个数量级。回归损失没有用到，就不说了。

二、代码

代码这里需要注意的是，计算过程中不要用a += b这种形式，而是要用a = a+b，否则无法求导。

def Discriminative_Loss(self, instance_label, embedding_out, delta_v=0.5, delta_d=3.0):
        # 一张一张地算
        embd_dim = embedding_out.shape[1]
        batch_size = embedding_out.shape[0]
        L_var = torch.tensor(0, dtype=embedding_out.dtype, device=embedding_out.device)
        L_dist = torch.tensor(0, dtype=embedding_out.dtype, device=embedding_out.device)

        for i in range(batch_size):
            # 对于每一条车道线，每个像素都有4维的embedding，因此，均值也是4维的
            img = embedding_out[i]
            label = instance_label[i]
            # 那么四条车道线，对应四个均值，就是4*4的，如果embedding是5维，那四条车道线的均值就是4*5的。

            labels = torch.unique(label)
            labels = labels[labels != 0]  # 1,2,3,4
            centroid_means = []
            for lane in labels:
                # 取出对于这条车道线，有像素的那些点的Mask
                mask = (label == lane)
                # 根据mask，取出点，每个点是4维的embedding
                masked_img = img[:, mask]

                mean_lane = torch.mean(masked_img, dim=1)
                centroid_means.append(mean_lane)
                # m个embedding后的像素点都减去均值（4,1），在第0个维度求范数，就会消去第0个维度，得到m个值
                L_var = L_var + torch.mean(
                    F.relu((torch.norm(masked_img - mean_lane.reshape(embd_dim, 1), dim=0)) - delta_v) ** 2) / len(
                    labels)
            # 堆叠起来，就得到了(num_lanes, embedding_dim)的四条车道线的均值，利用这个去求范数
            centroid_means = torch.stack(centroid_means)
            if len(labels) > 1:
                # 比如车道线4条，embedding 维度是5的话，前面堆叠之后的shape就是(4,5)
                # 变成2个，一个是(4,1,5)，一个是(1,4,5)
                # 这样对这两个相减，在“5”这个维度上求范数，消去这个维度，得到的就是(4,4)的范数结果
                # 第i行第j列代表第i个线对第j个线求的范数，因此对角线是0，上下两部分对称
                c = len(labels)
                centroid_means1 = centroid_means.reshape(-1, 1, embd_dim)
                centroid_means2 = centroid_means.reshape(1, -1, embd_dim)
                dist = torch.norm(centroid_means1 - centroid_means2, dim=2)
                dist =dist+ torch.eye(c, dtype=dist.dtype, device=dist.device) * delta_d
                # 对角线加上delta_d，再按照公式求即可
                L_dist = L_dist + torch.sum((F.relu(-dist + delta_d) ** 2) / (c * (c - 1) * 2))
        L_var =L_var / batch_size
        L_dist =L_dist / batch_size
        return L_var, L_dist