TarDAL(Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse)

1.摘要

这项研究解决了红外和可见图像在目标检测中呈现不同的问题。为了生成高视觉质量的图像,先前的方法发现了这两种模态的共同基础,并通过迭代优化或深度网络在共同空间中进行融合。这些方法忽视了模态差异暗示的互补信息对于融合和后续检测任务的极端重要性。本文提出了一个双层优化形式,用于联合融合和检测问题,并展开成一个目标感知的双对抗学习(TarDAL)网络用于融合,以及一个常用的检测网络。融合网络具有一个生成器和双判别器,旨在在学习差异的同时寻找共同点,从而保留红外目标的结构信息和可见图像的纹理细节。此外,我们构建了一个具有校准红外和光学传感器的同步成像系统,并目前收集了涵盖各种场景的最全面的基准测试数据集。对几个公共数据集和我们的基准测试进行了大量实验,结果表明我们的方法不仅输出视觉上吸引人的融合图像,而且比最先进的方法具有更高的检测平均精度(mAP)。

联合融合是指将来自不同传感器或模态的信息进行合并,以提高目标检测;

目标感知是指在计算机视觉和机器学习领域中,对图像或视频中的目标进行有效的理解和认知的能力。

2.引言

在过去的几十年中,已经开发了许多旨在改善视觉质量的红外和可见光图像融合(IVIF)方法。传统的多尺度变换、优化模型、稀疏表示和子空间方法尝试发现这两种模态的内在共同特征,并设计适当的融合权重规则。这些方法通常采用迭代优化过程。最近,研究人员通过在训练过程中使用具有冗余的精心准备的图像对来引入深度网络到IVIF中,以学习强大的特征表示和/或融合策略。融合被证明是一个高效的推断过程,可以获得显著的质量改进。然而,无论是传统的还是深度的IVIF方法都致力于提高质量,但忽略了后续的检测,而这对于许多实际的计算机视觉应用来说是关键的。融合更加注重“寻求共同点”,但忽略了这两种模态在呈现目标结构信息和环境背景的纹理细节方面的差异。这些差异在区分目标的不同特征以进行目标检测的同时生成高对比度的清晰外观中起着关键作用,便于人工检查。

"冗余"指的是图像对中的信息重复或相似性。具有冗余的图像对意味着红外图像和可见光图像在内容和特征上具有相似性。这意味着它们捕捉到相同的场景或对象,并且提供类似的信息。

这段描述强调了在红外和可见光图像融合中理解和利用两种模态之间的差异的重要性,以获得更好的目标检测性能和可视化效果。

此外,从这些差异(实际上是互补信息)中学习需要从这两种模态中收集大量的图像数据。在光照和天气变化的不同场景中捕捉到的图像具有显着不同的特征。不幸的是,现有的数据集只涵盖有限的条件,这对于学习互补信息并验证其有效性构成了障碍。

本文针对融合和检测的联合问题提出了一个双层优化形式。这个形式展开成一个精心设计的双对抗融合网络,由一个生成器两个目标感知判别器组成,以及一个常用的检测网络。一个判别器区分红外成像的图像域中的前景热目标,而另一个判别器区分可见图像的梯度域中的背景纹理细节。我们还推导出一种协同训练策略,为两个网络学习最优参数。图1展示了我们的方法通过具有目标独特性和视觉吸引

我们的贡献有四个方面:

  • 我们采用了一个双层优化形式,既可以进行图像融合,又可以进行目标检测,从而实现了高精度的检测和具有更好视觉效果的融合图像。
  • 我们设计了一个适用于检测导向融合的目标感知双对抗学习网络(TarDAL),该网络具有更少的参数。这个包含一个生成器和双判别器的网络在“寻求共同点的同时从差异中学习”,从红外图像中保留目标信息,从可见光图像中保留纹理细节。
  • 我们从双层优化形式中推导出一种协同训练方案,以获得用于快速推断(融合和检测)的最优网络参数。

3.相关工作

3.1 基于学习的方法

由于多层神经网络具有强大的非线性拟合能力,深度学习在低级别视觉任务中取得了令人期待的进展。早期的研究将深度网络插入到IVIF过程中,作为特征提取或权重生成的模块。Liu等人级联了两个预训练的CNN,一个用于特征学习,另一个用于权重学习。研究人员还采用端到端的架构,使得一步网络推断可以通过一组网络参数生成一个合理的融合图像。Li等人引入了一个残差融合网络,在一个共同的空间中学习增强特征,产生结构一致的结果,便于人工检查。
最近,基于生成对抗网络(GAN)的IVIF方法通过将不同的分布转换为期望的分布产生吸引人的结果。Ma等人首次介绍了一个对抗博弈,用于增强纹理细节。然而,这种信号对抗机制可能会丢失红外信号中的关键信息。Ma等人将相同的对抗策略应用于可见光和红外图像,部分补偿了红外信息。==不幸的是,所有这些方法都未能捕捉到这两种成像类型的不同特征。==因此,值得研究这些相互补充的差异,从中既可以获益于融合,又可以获益于目标检测。

3.2. Benchmarks

近年来,我们目睹了IVIF基准数据集的快速发展,包括TNO Image Fusion 、INO Videos Analytics1、OSU Color-Thermal2、RoadScene 和Multispectral数据集。TNO数据集 是最常用的公开可用的IVIF数据集,包含261对白天和夜晚的多光谱图像。INO数据集由加拿大国家光学研究所提供,包含配准的红外和可见光图像对,有助于在具有挑战性的环境中开发用于视频分析应用的多种传感器类型。OSU Color-Thermal数据库是为基于融合的目标检测而建立的,包含285对注册的红外和彩色可见光图像。整个数据集在俄亥俄州立大学校园的繁忙路径上白天采集。Xu等人发布了Roadscene数据集,其中包含221对配准的红外和可见光图像,拍摄于包含车辆和行人等丰富对象的道路场景中 。Takumi等人提出了一种用于自动驾驶的新型多光谱数据集,包括RGB、NIR、MIR和FIR图像以及注释的目标类别。

表格1列出了这些数据集的规模、分辨率、光照和场景类别等信息。现有数据集的图像分辨率较低,目标和场景类型有限,标注的样本数量较少,这限制了它们在多模态的高级目标检测任务中的广泛应用。

4.方法

本节详细介绍我们的方法,从融合和检测的双层优化形式开始。然后,我们详细说明了用于融合的目标感知双对抗学习网络。最后,我们提出了一个协同训练方案,以学习融合和检测的最优参数。

4.1. Problem formulation

本文提出了IVIF(Infrared-Visible Image Fusion)方法,旨在生成一张既适合人类肉眼观察又适合计算机感知,特别是物体检测的图像。假设红外、可见光和融合后的图像都是灰度图像,大小为m×n,则它们分别表示为列向量 x 、 y 和 u ∈ R m n × 1 x、y和u∈R^{mn×1} xyuRmn×1。遵循公理Stackelberg的理论,我们将面向检测的融合公式化为双层优化模型:

m i n w d L d ( ψ ( u ∗ ; w d ) ) , ( 1 ) \underset{w_d}{min} L_d(\psi(u^*;w_d)),\quad (1) wdminLd(ψ(u;wd)),(1)

s . t . u ∗ ∈ a r g m i n u f ( u ; x , y ) + g T ( u ; x ) + g D ( u ; y ) , ( 2 ) s.t.u^* \in arg \underset{u}{min} f(u;x,y)+g_T(u;x)+g_D(u;y),\quad(2) s.t.uarguminf(u;x,y)+gT(u;x)+gD(u;y),(2)

其中 L d L^d Ld表示检测特定的训练损失, ψ \psi ψ表示带有可学习参数 ω d ω_d ωd的检测网络。同时,f(·)是基于能量的保真度项,包含融合后的图像u以及源图像x和y,而 g T ( ⋅ ) g_T(·) gT() g D ( ⋅ ) g_D(·) gD()是定义在红外和可见光上的可行性约束。

(1)和(2)的公式分别是文章中提出的双层优化模型的目标函数和约束条件。其中(1)是整体目标函数,用于在联合考虑融合和检测任务的情况下训练检测网络;(2)是融合约束条件,用于保留红外图像和可见图像中的结构信息和纹理信息。具体公式和其含义如下:

具体来说,文中提到了一种针对红外和可见图像融合的检测任务的目标感知双重对抗学习模型,建立了一个联合考虑融合和检测任务的双层优化模型。其中目标感知的融合约束是指保留红外和可见图像中的结构信息和纹理信息,可以通过公式(1)和(2)来描述。公式(1)是整体目标函数,用于在联合考虑融合和检测任务的情况下训练检测网络;公式(2)是融合约束条件,用于保留红外图像和可见图像中的结构信息和纹理信息。文中还提出了一种双层优化方法,通过一个生成器来实现融合约束的目的,使得整个问题转化为融合和检测两个任务。此外,作者还提出了一种协同训练策略,使得整个网络可以实现更好的效果。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tJm1eaot-1686641977711)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230604172840615.png)]

图2(a)说明这种双层优化模型可以找到相互促进融合和检测的解决方案。然而,由于融合任务不是一个简单的相等/不等式约束,因此使用传统的优化技术解决方程(2)是非常困难的。相反,我们引入一个带有可学习参数 ω f ω_f ωf的融合网络 ϕ \phi ϕ,并将双层优化转化为单层优化的形式:

m i n w d , w f L d ( ψ ( u ∗ ; w d ) ) , s . t . u ∗ = ϕ ( x , y ; w f ) , ( 3 ) \underset{w_d,w_f}{min} L_d(\psi(u^*;w_d)),s.t.u^*=\phi(x,y;w_f),\quad (3) wd,wfminLd(ψ(u;wd)),s.t.u=ϕ(x,y;wf),(3)

因此,我们将优化展开为两个学习网络 ϕ \phi ϕ ψ \psi ψ。我们采用YOLOv5作为检测网络 ψ \psi ψ的骨干,其中 L d L^d Ld也遵循其设置,并仔细设计融合网络 ϕ \phi ϕ如下。

4.2. Target-aware dual adversarial network

一般来说,典型的深度图像融合方法致力于学习两种模态中的共同特征,这两种模态的外观不同。但是,我们的融合网络在学习这两种成像模式的共性的同时,还考虑到它们之间的差异性,这些差异性体现了两种成像模式互补的特征。一般来说,红外成像突出了目标的独特结构,而可见光提供了背景的纹理细节。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w7JRD8GA-1686641977712)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230605091103345.png)]

因此,我们引入了一种对抗性游戏,其中包含一个生成器和两个判别器,以此结合这两种模态的共同和不同的特征,如图2(b)所示。鼓励生成器G同时欺骗两个判别器,并提供一个逼真的融合图像。目标判别器 D T D_T DT评估了从红外成像中抠出来的目标与生成器G生成的融合图像的目标之间的强度一致性(图2(b)的顶部行);细节判别器 D D D_D DD则对比较可见光和融合图像之间的梯度分布进行判别(图2(b)的底部行)。由于目标具有一致的强度分布,而梯度则描绘了纹理特征,因此这两个判别器在不同的领域分别工作。

生成器:生成器有助于生成一个融合图像,该图像保留整体结构并保持与源图像类似的强度分布。常用的结构相似性指数(SSIM)作为损失函数:

L S S I M = ( 1 − S S I M u , x ) / 2 + ( 1 − S S I M u , y ) / 2 , ( 4 ) L_{SSIM}=(1-SSIM_{u,x})/ 2 +(1-SSIM_{u,y})/ 2,\quad (4) LSSIM=(1SSIMux)/2+(1SSIMuy)/2(4)

其中 L S S I M L_{SSIM} LSSIM表示结构相似性损失。为了平衡源图像的像素强度分布,我们引入基于显著度权重(SDW)的像素损失。

假设可以通过 S x ( k ) = ∑ i = 0 255 H x ( i ) ∣ x ( k ) − i ∣ S_{x(k)}=\sum_{i=0}^{255}H_x(i)|x(k)-i| Sx(k)=i=0255Hx(i)x(k)i获得第k个像素处原图像x的显著值,

其中 x ( k ) x(k) x(k)是第k个像素的值, H x H_x Hx是像素值为i的直方图,我们将像素损失 L p i x e l L_{pixel} Lpixel定义为:

L p i x e l = ∥ u − ω 1 x ∥ 1 + ∥ u − ω 2 y ∥ 1 , ( 5 ) L_{pixel}=∥u-ω_1x∥_1+∥u-ω_2y∥_1 ,\quad(5) Lpixel=uω1x1+uω2y1,(5)

其中 ω 1 = S x ( k ) S x ( k ) − S y ( k ) , ω 2 = 1 − ω 1 ω_1 = \frac{S_x(k)}{S_x(k)-S_y(k)} ,ω_2 = 1-ω_1 ω1=Sx(k)Sy(k)Sx(k)ω2=1ω1

我们将一个5层的密集块作为G,用于提取共同特征,然后使用一个合并块进行特征聚合,该合并块由三个卷积层组成。每个卷积层由一个卷积运算、批归一化和ReLU激活函数组成。生成的融合图像u与源图像具有相同的大小。

目标和细节判别器:目标判别器 D T D_T DT用于区分融合结果中红外前景热目标与红外之间的差异,而细节判别器 D D D_D DD用于区分融合结果中可见的背景细节差异。我们使用预训练的显著性检测网络从红外图像计算目标掩码m,以便两个判别器可以分别在它们的区域(目标和背景)上进行操作。因此,我们将对抗性损失 L a d v L_{adv} Ladv定义为

在这里插入图片描述

其中 R = x ⊙ m R = x\odot m R=xm R ^ = 1 − R \hat R = 1 −R R^=1R,区分目标与背景, ⊙ \odot 表示逐点乘法。 ∇ ( ⋅ ) ∇(·) ()表示梯度运算

这些判别器的对抗性损失函数计算Wasserstein距离来相互确定前景热目标和背景纹理细节是否真实。具体而言,定义为:

在这里插入图片描述

其中, r ~ ( x ) \tilde{r}(x) r~(x)表示类似于 p ~ ( x ) \tilde{p}(x) p~(x)的样本空间。通常,k和p分别设置为2和6。

在这里插入图片描述

两个鉴别器 D T 和 D D D_T和D_D DTDD共享相同的网络结构,具有四个卷积层和一个完全连接层。图3展示了生成器和双鉴别器的详细架构。

目标掩码m指的是预训练的显著性检测网络生成的目标掩码。这个掩码用来区分红外图像中的前景目标和可见光图像的背景细节,让两个判别器可以在它们各自的区域(目标和背景)上进行判别。目标掩码m通俗来讲,就是通过一个特殊的算法预测红外图像中哪些地方是前景目标,哪些地方是背景细节。得到这个目标掩码以后,我们就可以让判别器在目标区域和背景区域进行各自的判别,以便更准确地进行图像融合处理和后续的任务。

4.3. Cooperative training strategy

双层优化自然地导出了一种协作训练策略,以获得最优网络参数 ω = ( ω d , ω f ) ω =(ω_d,ω_f) ω=ωdωf。我们引入融合正则化器 L f L^f Lf,并将优化检测受融合约束的方程(3)转化为互相优化的形式:

在这里插入图片描述

其中λ是折衷参数。该正则化器不需要设计加权规则,而是能够很好地平衡融合和检测。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hVYYrwfk-1686641977712)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230605153846707.png)]

图2©说明了梯度传播的流程,以合作训练融合和检测网络。相对于ωd和ωf的损失梯度计算如下:

这些方程表明,检测损失相对于检测参数的梯度以及相对于融合参数的梯度均进行了反向传播,后者还包括相对于融合参数的融合损失的梯度。 最后,这种策略不仅可以生成外观上吸引人的图像,而且在给定训练的网络参数的情况下还可以输出准确的检测结果,使我们能够找到检测导向融合的最优解,并比独立训练方案更有效地收敛。

4.4 Multi-scenario Multi-modality Benchmark

现有的具有红外和可见图像的数据集很难应用于从多模态数据中学习和/或评估检测。我们的基准M3FD包含高分辨率的红外和可见图像,涵盖了在表1的最后一行给出的各种场景下的不同对象类型。

我们构建了一个同步系统,其中包含一个双目光学相机和一个双目红外传感器(如图5所示),以捕获自然场景的相应的双模态图像。可见光双目相机和红外双目相机的基线(焦点中心之间的距离)分别为12cm和20cm。可见光和红外传感器之间的光学中心距离为4cm。可见光图像具有1024×768的高分辨率和广泛的成像范围,而红外图像的标准分辨率为640×512,波长范围为8-14µm。 我们首先对所有相机进行了标定,估计其内部和外部参数,然后计算投射红外图像坐标到可见光图像坐标的单应性矩阵。最终,通过将所有图像变形到相同的坐标系,我们得到了大小为1024×768的对齐的红外/可见光图像对。 我们将M3FD中的所有4,200个对齐对分为四种典型类型,即白天、阴天、夜晚和挑战,具有图4中的十个子场景。同时,我们标注了33,603个六类物体的注释,即人、汽车、公交车、摩托车、卡车和灯,这些物体通常出现在监视和自动驾驶中。M3FD的数量和多样性为通过融合图像学习和评估目标检测开辟了可能性。

5.实验

我们针对四个数据集进行了实验评估(其中三个用于IVIF,即TNO、Roadscene和M3FD,两个用于目标检测,即MS和M3FD)。随机裁剪了180张多模式图像,裁剪后的大小为320×320像素的24k/151k个补丁,并进行增强以用于训练融合和检测任务。调整参数α和β分别设置为20和0.1。Adam优化器使用1.0×10^-3的学习率和指数衰减来更新网络参数。批次大小为64,时代设置为300。我们的方法使用PyTorch实现,在NVIDIA Tesla V100 GPU上训练。

5.1. Results of infrared-visible image fusion

我们通过与7种最先进的方法进行比较来评估TarDAL的融合性能,包括DenseFuse 、FusionGAN 、RFN 、GANMcC 、DDcGAN 、MFEIF 和U2Fusion 。

定性比较

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PFU5wLmR-1686641977713)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230613105317580.png)]

图6展示了来自三个数据集的三个典型图像对的直观定性结果。与其他现有方法相比,我们的TarDAL有两个显著优势。首先,红外图像中有判别性目标可以被很好地保留。如图6所示(第二组的绿色区域),我们方法中的人物呈现出高对比度和独特的显著轮廓,有利于视觉观察。其次,我们的结果可以保留可见图像中丰富的纹理细节(第一组和第三组的绿色区域),这更符合人类视觉系统。反之,视觉检查显示,DenseFuse和FusionGAN不能很好地突出判别性目标,而GANMcC和DDcGAN无法获取丰富的纹理细节。值得注意的是,我们的TarDAL能够生成更直观友好的融合结果,具有清晰的目标、更锐利的边缘轮廓和保留丰富的纹理细节。

定量比较

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C65PFIla-1686641977713)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230613110232768.png)]

接下来,我们在400对图像上(其中20对来自TNO数据集,40对来自RoadScene数据集,340对来自M3FD数据集)对上述竞争对手与我们的TarDAL进行定量比较。此外,引入三个评估指标,即互信息(MI)、熵(EN)和标准差(SD)进行评估。定量结果如图7所示。从统计结果可以看出,在所有评估指标中,我们的方法持续在三个数据集中生成平均值最大或次大的结果。同时,较低的方差表明我们的方法在处理各种视觉场景时更加稳定。具体而言,MI上的最大平均值证明我们的方法从两个源图像中传输了更多的信息。EN和SD的值表明我们的结果包含丰富的信息,并具有目标与背景之间最高的对比度。总的来说,我们的方法在一定程度上稳定保留了有用的信息,特别是最具判别性的目标、最丰富的纹理细节和与源图像相似的结构。

5.2. Results of infrared-visible object detection

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yPzitlD6-1686641977713)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230613111858545.png)]

为了全面讨论IVIF如何影响多模态目标检测性能,我们选用了两个数据集,即Multispectral和M3FD。其中,使用YOLOv5作为目标检测的基准模型。为了公平比较,我们分别保留七种最先进的方法的检测模型在融合结果中。 定性比较如图8所示,仅使用红外或可见传感器不能很好地检测,例如对于红外图像来讲无法很好地检测停车的汽车,以及对于可见图像来说无法很好地检测人物。相反,几乎所有的融合方法通过利用两侧的互补信息来提高检测性能。借助于我们的目标感知双层对抗学习和合作训练方案集成,我们可以持续生成有利于检测的融合结果,这在检测人和车方面具有优势,例如在遥远岩石上的车辆和行人。

定量比较

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gf94GPi5-1686641977713)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230613112300600.png)]

表2报告了两个数据集的定量结果。几乎所有的融合方法都取得了良好的检测结果,在检测AP方面远远超过仅使用可见或红外图像的情况。值得指出的是,我们的TarDAL在两个数据集上的检测mAP方面优于其他方法,在第二名(即DenseFuse和GANMcC)上提高了1.4%和1.1%。值得指出的是,我们的TarDAL在处理具有挑战性的场景方面具有优势,因为TarDAL充分发掘了来自不同模态的独特信息。

计算复杂度分析

为了全面分析我们方法的计算复杂度,我们提供了所有方法的时间消耗和计算效率。如表2中的最后一列所示,CNN的强大计算能力使这些基于学习的方法能够实现高速度。值得注意的是,在FLOPs和训练参数方面,我们的方法同时实现了最高的运行速度和较低的计算复杂度,使得后续高水平视觉应用具有高效性。、

5.3. Ablation studies

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tHRwf1b3-1686641977714)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230613152012769.png)]

我们对我们方法的模型架构进行了研究,并进一步验证了不同单个组件的有效性。首先,我们从整个网络中移除了目标鉴别器 D T D_T DT

在图9中,由于该变体缺乏区分显著红外目标的能力,融合结果往往会在一定程度上模糊目标。此外,在表3中,可以注意到 D T D_T DT在融合后提高了检测性能的关键作用。其次,细节鉴别器 D D D_D DD有助于保留可见图像中的纹理细节。在没有DD的情况下,融合图像的背景细节无法完全恢复,可在图9中找到直观的视觉结果。然而,由于有部分冗余的背景细节, D D D_D DD对目标检测产生微小的负面影响。此外,没有 D T D_T DT D D D_D DD融入我们的整个网络,EN和SD可以在TNO数据集上达到最高值。这是因为融合结果的大量噪声可能会导致EN和SD显著增加。总之,我们的方法依赖于每个步骤的中间结果,每个步骤对最终融合结果产生了积极的影响。

我们讨论了不同损失函数对我们方法的影响。从图10中可以看出,相比于没有SDW的方法,我们的方法可以保持更高对比度的显著像素分布,这说明了新设计的SDW函数的有效性。同时,没有m的方法可能会丢失一些重要的细节,例如叶子和烟囱的轮廓。这是因为m允许两个判别器在各自的区域内进行对抗性学习,从而更注重其独特的特征。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IE8x1zLG-1686641977714)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230613153706677.png)]

我们进一步验证了我们的合作训练(CT)相对于直接训练(DT)和任务导向训练(TT)的优势。如图11所示,TT仅使用检测损失来训练网络,结果观察效果较差。相比之下,CT在提高检测性能和更好的视觉效果方面具有显著优势。在表4中可以发现相同的趋势,CT在两个不同数据集中达到了最高或次最高的分数。

6.总结

在本文中,提出了一个双层优化配方,共同实现融合和检测。通过将模型展开到设计良好的融合网络和常用的检测网络,我们可以生成视觉友好的融合和目标检测结果。为了促进这一领域的研究,我们提出了一个同步成像系统与可见光-红外传感器和收集多场景多模态基准。

  • 7
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值