基于深度学习的Graph Matching中损失函数的理解

本文介绍以下损失函数:
①PermutationLoss
②CrossEntropyLoss
③PermutationLossHung
④OffsetLoss
⑤FocalLoss
⑥InnerProductLoss
⑦HammingLoss
(顺序依照ThinkMatch工程中 src/loss_func.py 的顺序)

OffsetLoss

18年的Deep Learning of Graph Matching将深度学习与Graph Matching进行首次结合,论文中对以往一些方法进行了组合,并着重对Graph Matching训练过程中的反向传播进行了严密的推导,其中采用的损失函数为 OffsetLoss

在这里插入图片描述
其中φ函数形式如下,即对两位移向量(displacement vector)di、di^gt 之差进行度量,得到一标量。
根号下后一项为一极小数,避免X^TX为0,影响训练的稳定性
在这里插入图片描述
di、di^gt 由论文中所提出的 Voting layer进行转换,这一layer,在工程中被称作 displacement_layer,也在src目录下。

displacement vector的计算公式:
在这里插入图片描述
对应的代码理解:
在这里插入图片描述①对s进行输出,得到8个10*10的矩阵,8表示batch size的大小,矩阵的大小由source image和target image中节点数决定。(表示两张图 各自节点之间的匹配关系)
在这里插入图片描述②对P_src 和 P_tgt进行输出,都得到了(8,10,2)维度的矩阵。

其内容为坐标值?
是的

target值和source值是否存在数据集中?
是,后面的9行暂时不知道是啥
在这里插入图片描述

source得到的point set是否会随着VGG的训练而不断改变?
不会,那VGG是对Pointset中每个点周围的特征进行提取吗?

在这里插入图片描述在这里插入图片描述
③对ns-gt进行输出,得到每一组2GM(Graph Matching)的配对数。
在这里插入图片描述④displacement_layer的代码如下:

if ns_gt is None:  # 如果整个Batch 8组图片(2*8张图片)中存在配对
    max_n = s.shape[1]
    P_src = P_src[:, 0:max_n, :]
    grad_mask = None
else:
    grad_mask = torch.zeros_like(P_src)
    for b, n in enumerate(ns_gt):
        grad_mask[b, 0:n] = 1

d = torch.matmul(s, P_tgt) - P_src
return d, grad_mask

(grad_mask 暂时不知道是啥)

torch.matmul(s, P_tgt)的输出:
维度:(8,10,2)

s的维度 (8,10,10), P_tgt 的维度(8,10,2)

物理意义:利用匹配关系,调整矩阵内坐标的顺序,使其与src的匹配关系对齐。
在这里插入图片描述
最终得到正确匹配关系时的位移向量。
在训练时,还会得到一个预测时的位移向量,OffetLoss就是希望匹配得足够正确,使得两者的位移向量差距最小,是强距离考虑的。因此会出现下面这个问题

在这里插入图片描述马的耳朵都匹配错了,OffetLoss却还很小,因此后续研究者提出了PermutationLoss。在这里插入图片描述

CrossEntropyLoss、PermutationLoss

基于Offset存在的问题,19年相关研究者提出了PermutationLoss,在论文中的全称为:Permutation Cross-Entropy Loss,论文中也提到’Cross entropy loss is adopted to train our model end-to-end’。因此PermutationLoss的核心其实就是一个交叉熵,而计算交叉熵的对象是上一节提到的s矩阵,即配对矩阵(Permutation矩阵),公式表达如下:

在这里插入图片描述
但两者在工程代码实现中还是有细微区别,从而导致采用这两个loss分别产生的损失量值不同。
在这里插入图片描述
在这里插入图片描述

我们利用两者各自的LATAX公式代码生成他们的公式如下:

在这里插入图片描述

在这里插入图片描述
怀疑CE的工程实现有一些问题,后面再探讨。

PermutationLossHung(Focal Loss)

20年,针对PermutationLoss 存在的 可能的负样本淹没问题(猜的),PermutationLossHung被提出。

在这里插入图片描述

与PermutationLoss唯一的区别在于Z矩阵的引入,什么是这里的Z矩阵呢?

论文中Z矩阵的计算公式如下:
在这里插入图片描述这里的Atten 函数,就是一个取并集的操作,即论文中提到的 an element-wise 'logic OR’function 。

而这里是那两个集合取并集呢?从论文的图三我们可以得到答案。
在这里插入图片描述将预测的Permutation矩阵(右上)和真实的Permutation矩阵(左下)作并集操作,得到attention activation矩阵(下中)。

这样做的物理意义是?
只对充满歧义的匹配进行关注,有点像FocalLoss。

并且论文中提到:‘once the match-ing score is calculated in an element-wise fashion’,进一步得在FocalLoss 和 ‘a specifically designed margin loss’上进行了实验。

为什么可以在FocalLoss等上也进行实验?后面再探讨。

HammingLoss

20年,HammingLoss被提出,旨在解决 perm中对离散矩阵反向传播时梯度截断的 问题,放弃原有的交叉熵的形式(理由?)。

损失形式:
在这里插入图片描述
在这里插入图片描述
和perm进行对比发现:

InnerProductLoss

该损失用于自监督问题,暂时不探讨。

### 回答1: 深度学习的双目立体匹配算法是一种通过构建双目图像视差来实现物体深度估计的方法。它可以用来计算两帧图像之间的视差,从而计算物体的深度。算法的代码可以使用C/C++或Python编程语言实现,具体的实现步骤可以参考一些开源的项目,其的代码都已经有详细的注释,可以方便的使用者理解算法的具体步骤。 ### 回答2: 双目立体匹配算法是指利用双目相机采集的两幅图像之间的视差信息,通过计算两幅图像的像素点的对应关系来重构三维空间物体的位置。 基于深度学习的双目立体匹配算法主要包含以下几个步骤:预处理、特征提取、代价计算、聚合、视差优化和后处理。 1. 预处理:对双目图像进行预处理,如图像去噪、图像校正、裁剪等。 2. 特征提取:利用深度学习模型,如卷积神经网络(CNN),提取图像的特征。将左右图像输入到CNN模型,通过模型的前向传播过程,得到两幅图像的特征图。 3. 代价计算:对于每个像素点,计算其在视差方向上的代价。通常使用代价函数,如绝对差异代价、归一化相关代价等。 4. 聚合:通过聚合算法,如图割(Graph Cut)、平滑滤波(Bilateral Filter)等,将每个像素点的代价进行聚合,得到整个视差图。 5. 视差优化:对聚合得到的视差图进行优化,消除可能存在的错误和不一致性。常用的视差优化算法有全局优化算法、半全局优化算法。 6. 后处理:对优化后的视差图进行后处理,如填充空洞、边缘精化等,得到最终的三维重构结果。 下面是一个简单的基于深度学习的双目立体匹配算法代码示例,包含了部分详细注释: ```python # 导入所需库 import numpy as np import cv2 # 预处理 def preprocess(left_img, right_img): # 进行图像校正等预处理操作 # ... return left_img, right_img # 特征提取 def extract_features(left_img, right_img): # 使用预训练的CNN模型提取特征 # ... return left_features, right_features # 代价计算 def compute_cost(left_features, right_features): # 计算两幅图像对应特征图之间的代价 # 使用绝对差异代价或归一化相关代价等方法 # ... return cost # 聚合 def aggregate_cost(cost): # 使用图割或平滑滤波等方法聚合代价 # ... return aggregated_cost # 视差优化 def optimize_disparity(aggregated_cost): # 使用全局优化或半全局优化等方法优化视差 # ... return disparity # 后处理 def postprocessing(disparity): # 对视差图进行空洞填充、边缘精化等操作 # ... return disparity # 主函数 def main(left_img, right_img): # 预处理 left_img, right_img = preprocess(left_img, right_img) # 特征提取 left_features, right_features = extract_features(left_img, right_img) # 代价计算 cost = compute_cost(left_features, right_features) # 聚合 aggregated_cost = aggregate_cost(cost) # 视差优化 disparity = optimize_disparity(aggregated_cost) # 后处理 disparity = postprocessing(disparity) # 返回最终的视差图 return disparity # 测试代码 left_img = cv2.imread('left.png') right_img = cv2.imread('right.png') disparity_map = main(left_img, right_img) ``` 以上代码仅作为示例,实际的双目立体匹配算法代码会更加复杂,涉及到的方法和技术还有很多。双目立体匹配算法的具体实现可以根据需求进行相应的调整和优化。 ### 回答3: 双目立体匹配算法是利用双目相机采集的图像,通过计算两个图像之间的视差(即像素之间的差异)来确定物体的深度信息。基于深度学习的双目立体匹配算法则是在传统的立体匹配算法基础上,利用深度学习模型对图像进行特征提取和匹配。 以下是一个基于深度学习的双目立体匹配算法的代码示例,包含了详细的注释: ``` import cv2 import numpy as np import torch # 加载预训练的深度学习模型 model = torch.load('stereo_matching_model.pt') # 加载左右目图像 left_image = cv2.imread('left.png') right_image = cv2.imread('right.png') # 将图像转换为张量,并进行归一化处理 left_tensor = torch.from_numpy((left_image / 255.0).astype(np.float32)).permute(2, 0, 1).unsqueeze(0) right_tensor = torch.from_numpy((right_image / 255.0).astype(np.float32)).permute(2, 0, 1).unsqueeze(0) # 使用深度学习模型进行特征提取和匹配 with torch.no_grad(): left_features = model(left_tensor) right_features = model(right_tensor) # 计算两个特征图之间的差异,得到视差图 disparity = torch.abs(left_features - right_features) # 将视差图转换为深度图 depth_map = 1 / disparity # 将深度图转换为灰度图,并进行显示 depth_map_gray = cv2.cvtColor(depth_map.squeeze().numpy(), cv2.COLOR_BGR2GRAY) cv2.imshow('Depth Map', depth_map_gray) cv2.waitKey(0) ``` 在上述代码,首先加载了预训练的深度学习模型,并加载了左右目的图像。然后将图像转换为张量,并进行归一化处理。接下来,通过深度学习模型对左右目的图像进行特征提取和匹配,并计算两个特征图之间的差异,得到视差图。最后,将视差图转换为深度图,并将深度图转换为灰度图进行显示。 以上是基于深度学习的双目立体匹配算法的代码详细注释。这个算法可以通过深度学习模型来提取图像的特征,进而实现精确的立体匹配。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值