【AI视野·今日CV 计算机视觉论文速览 第296期】Wed, 24 Jan 2024

379 篇文章 70 订阅
286 篇文章 54 订阅

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 24 Jan 2024
Totally 65 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

GALA: Generating Animatable Layered Assets from a Single Scan
Authors Taeksoo Kim, Byungjun Kim, Shunsuke Saito, Hanbyul Joo
我们提出了 GALA,这是一个框架,它将单层穿戴的 3D 人体网格作为输入,并将其分解为完整的多层 3D 资产。然后,输出可以与其他资产结合起来,创建具有任何姿势的新颖的服装人类化身。现有的重建方法通常将穿着衣服的人类视为单层几何体,而忽略了人类与发型、服装和配饰的固有组合性,从而限制了网格在下游应用中的实用性。将单层网格分解为单独的层是一项具有挑战性的任务,因为它需要为严重遮挡的区域合成合理的几何形状和纹理。此外,即使分解成功,网格在姿势和身体形状方面也没有标准化,无法与新颖的身份和姿势进行连贯的组合。为了应对这些挑战,我们建议利用预训练的二维扩散模型的一般知识作为人类和其他资产的几何和外观先验。我们首先使用从多视图 2D 分割中提取的 3D 表面分割来分离输入网格。然后,我们使用新颖的姿势引导分数蒸馏采样 SDS 损失来合成姿势空间和规范空间中不同层的缺失几何形状。一旦我们完成了高保真 3D 几何体的修复,我们还会对其纹理应用相同的 SDS 损失,以获得包括最初遮挡区域在内的完整外观。通过一系列分解步骤,我们在共享规范空间中获得了多层 3D 资产,并根据姿势和人体形状进行了规范化,从而支持轻松组合新的身份并以新的姿势复活。

Zero-Shot Learning for the Primitives of 3D Affordance in General Objects
Authors Hyeonwoo Kim, Sookwan Han, Patrick Kwon, Hanbyul Joo
人工智能的主要挑战之一是教会机器精确响应和利用环境功能,从而实现人类拥有的可供性意识。尽管它很重要,但该领域在学习方面一直落后,尤其是在 3D 领域,因为由于人类对象交互的众多变化,注释可供性伴随着一个费力的过程。可供性数据的低可用性限制了对象类别泛化方面的学习,并且还简化了可供性的表示,仅捕获了可供性的一小部分。为了克服这些挑战,我们提出了一种新颖的自监督方法来生成仅给定 3D 对象的 3D 可供性示例,无需任何手动注释。该方法首先将 3D 对象捕获到图像中,并通过修复扩散模型将人体插入到图像中来创建 2D 可供性图像,其中我们提出了自适应掩模算法,以在不改变对象的原始细节的情况下实现人体插入。因此,该方法将插入的人体提升回 3D 以创建 3D 人体对象对,其中深度模糊性在深度优化框架内得到解决,该框架利用从多个视点预先生成的人体姿势。我们还提供了一种新颖的可供性表示,它是根据密集的人和物体点之间的相对方向和接近度定义的,可以轻松地从任何 3D HOI 数据集中聚合。所提出的表示作为一个基元,可以通过简单的转换(从物理施加的可供性到非物理的可供性)来显现为传统的可供性表示。

IRIS: Inverse Rendering of Indoor Scenes from Low Dynamic Range Images
Authors Zhi Hao Lin, Jia Bin Huang, Zhengqin Li, Zhao Dong, Christian Richardt, Tuotuo Li, Michael Zollh fer, Johannes Kopf, Shenlong Wang, Changil Kim
虽然许多 3D 重建和新颖的视图合成方法允许从使用消费级相机轻松捕获的多视图图像中对场景进行真实感渲染,但它们在表示中烘焙照明,并且无法支持材质编辑、重新照明和虚拟对象插入等高级应用程序。

HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments
Authors Qinhong Zhou, Sunli Chen, Yisong Wang, Haozhe Xu, Weihua Du, Hongxin Zhang, Yilun Du, Joshua B. Tenenbaum, Chuang Gan
高保真虚拟环境的最新进展是构建智能实体来感知、推理并与物理世界交互的主要驱动力之一。通常,这些环境保持不变,除非代理与它们交互。然而,在现实场景中,代理还可能面临以意外事件为特征的动态变化的环境,需要快速采取相应的行动。为了弥补这一差距,我们提出了一种新的模拟体现基准,称为 HAZARD,专门用于评估动态情况下体现主体的决策能力。 HAZARD由火灾、洪水和风三种意外灾害场景组成,专门支持利用大型语言模型LLM来辅助常识推理和决策。该基准使我们能够评估跨各种管道的自主代理决策能力,包括动态变化环境中的强化学习 RL、基于规则和基于搜索的方法。作为使用大型语言模型应对这一挑战的第一步,我们进一步开发了一个基于 LLM 的代理,并对其解决这些具有挑战性的任务的承诺和挑战进行了深入分析。

On the Efficacy of Text-Based Input Modalities for Action Anticipation
Authors Apoorva Beedu, Karan Samel, Irfan Essa
尽管预测未来行动的任务高度不确定,但来自其他模式的信息有助于缩小合理的行动选择范围。每种模式都提供了不同的环境背景供模型学习。虽然以前的多模态方法利用来自视频和音频等模态的信息,但我们主要探讨动作和对象的文本输入如何也能够实现更准确的动作预期。因此,我们提出了一种多模态预期变换器 MAT,这是一种基于注意力的视频变换器架构,可以联合学习多模态特征和文本字幕。我们分两个阶段训练模型,模型首先学习通过与字幕对齐来预测视频剪辑中的动作,在第二阶段,我们微调模型以预测未来的动作。与现有方法相比,MAT 的优点是在预训练阶段从两种文本输入动作描述中学习额外的环境上下文,在模态特征融合期间从检测到的对象和动作的文本输入中学习额外的环境上下文。通过大量的实验,我们评估了预训练阶段的有效性,并表明我们的模型在所有数据集上都优于以前的方法。此外,我们还检查通过文本获得的对象和动作信息的影响,并进行广泛的消融。

Coverage Axis++: Efficient Inner Point Selection for 3D Shape Skeletonization
Authors Zimeng Wang, Zhiyang Dou, Rui Xu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Shiqing Xin, Lingjie Liu, Taku Komura, Xiaoming Yuan, Wenping Wang
我们推出了 Coverage Axis,这是一种新颖且高效的 3D 形状骨架化方法。当前用于此任务的最先进的方法通常依赖于输入的防水性或遭受大量的计算成本,从而限制了它们的实用性。为了应对这一挑战,Coverage Axis 提出了一种启发式算法来选择骨架点,提供内侧轴变换 MAT 的高精度近似,同时显着减轻各种形状表示的计算强度。我们引入了一种简单而有效的策略,该策略考虑形状覆盖范围和均匀性来导出骨架点。选择过程强制与形状结构的一致性,同时有利于占主导地位的内侧球,从而在 MAT 方面引入了紧凑的基础形状表示。因此,Coverage Axis 允许对各种形状表示进行骨架化,例如水密网格、三角汤、点云、骨架点数量的规范、很少的超参数以及具有改进的重建精度的高效计算。对各种 3D 形状进行的大量实验验证了 Coverage Axis 的效率和有效性。

Lumiere: A Space-Time Diffusion Model for Video Generation
Authors Omer Bar Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
我们引入了 Lumiere 一种文本到视频扩散模型,旨在合成视频,描绘真实、多样化和连贯的运动,这是视频合成中的关键挑战。为此,我们引入了时空 U Net 架构,该架构通过模型中的单次传递一次性生成视频的整个时间持续时间。这与现有的视频模型形成鲜明对比,现有的视频模型合成遥远的关键帧,然后进行时间超分辨率,这种方法本质上难以实现全局时间一致性。通过部署空间和重要的时间下采样和上采样,并利用预先训练的文本到图像扩散模型,我们的模型学会通过在多个时空尺度上处理视频来直接生成全帧率、低分辨率视频。

Facing the Elephant in the Room: Visual Prompt Tuning or Full Finetuning?
Authors Cheng Han, Qifan Wang, Yiming Cui, Wenguan Wang, Lifu Huang, Siyuan Qi, Dongfang Liu
随着视觉模型规模的不断增长,Visual Prompt Tuning VPT作为一种参数高效的迁移学习技术的出现,由于其相对于传统完全微调的优越性能而受到关注。然而,有利于 VPT 的条件、时间和根本原因仍不清楚。在本文中,我们对 19 个不同的数据集和任务进行了全面分析。为了理解何时方面,我们通过二维任务目标和数据分布来确定 VPT 被证明是有利的场景。我们发现,当 1 原始任务目标和下游任务目标之间存在显着差异(例如,从分类过渡到计数),或 2 两个任务之间的数据分布相似(例如,都涉及自然图像)时,VPT 更可取。在探索原因维度时,我们的结果表明 VPT 的成功不能仅仅归因于过度拟合和优化考虑。 VPT 保留原始特征并添加参数的独特方式似乎是一个关键因素。

Unlocking the Potential: Multi-task Deep Learning for Spaceborne Quantitative Monitoring of Fugitive Methane Plumes
Authors Guoxin Si, Shiliang Fu, Wei Yao
随着全球变暖的加剧,甲烷排放的监测和垃圾填埋场气体羽流的检测日益受到关注。我们将甲烷排放监测分解为甲烷浓度反演、羽流分割和排放率估算三个子任务。传统算法存在局限性,甲烷浓度反演通常采用匹配滤波器,该滤波器对全局谱分布敏感,且包含大量噪声。关于羽流分割的研究有限,许多研究采用可能是主观的手动分割。甲烷排放率的估算通常采用IME算法,该算法依赖于获取气象测量数据。利用香港 WENT 垃圾填埋场和 PRISMA 高光谱卫星图像,我们提出了一种新的基于深度学习的框架,用于基于物理模拟的遥感图像定量监测甲烷排放。我们使用大涡流模拟 LES 生成模拟甲烷羽流,并使用辐射传输方程 RTE 生成不同逸散排放浓度图,同时结合增强技术创建模拟 PRISMA 数据集。我们训练了一个用于甲烷浓度反演的 U Net 网络、一个用于甲烷羽流分割的 Mask R CNN 网络以及一个用于甲烷排放率估计的 ResNet 50 网络。与传统算法相比,这三个深度网络都实现了更高的验证精度。我们进一步分别结合前两个子任务和后两个子任务来设计多任务学习模型MTL 01和MTL 02,它们都比单任务模型获得了更高的精度。

FedRSU: Federated Learning for Scene Flow Estimation on Roadside Units
Authors Shaoheng Fang, Rui Ye, Wenhao Wang, Zuhong Liu, Yuxiao Wang, Yafei Wang, Siheng Chen, Yanfeng Wang
路边单元 RSU 可以通过车辆到一切 V2X 通信显着提高自动驾驶车辆的安全性和稳健性。目前,单个RSU的使用主要集中在实时推理和V2X协作,而忽略了RSU传感器收集的高质量数据的潜在价值。整合来自众多RSU的海量数据可以为模型训练提供丰富的数据源。然而,缺乏真实注释和传输大量数据的困难是充分利用这一隐藏价值的两个不可避免的障碍。在本文中,我们介绍了 FedRSU,一种用于自监督场景流估计的创新联邦学习框架。在 FedRSU 中,我们提出了一种循环自监督训练范例,其中对于每个 RSU,每个时间戳点的场景流预测可以通过其后续的未来多模态观察进行监督。 FedRSU 的另一个关键组成部分是联合学习,其中多个设备协作训练 ML 模型,同时保持训练数据本地和私有。凭借循环自监督学习范式的强大功能,FL 能够利用 RSU 中无数未充分利用的数据。为了验证 FedRSU 框架,我们构建了一个大规模多模态数据集 RSU SF。该数据集由 17 个 RSU 客户端组成,涵盖各种场景、模式和传感器设置。基于RSU SF,我们证明FedRSU可以极大地提高ITS中的模型性能,并在不同的FL场景下提供全面的基准。

Classification of grapevine varieties using UAV hyperspectral imaging
Authors Alfonso L pez, Carlos Javier Ogayar, Francisco Ram n Feito, Joaquim Jo o Sousa
不同葡萄品种的分类是精准葡萄栽培中的一项相关表型分析任务,因为它可以估计专门用于不同品种的葡萄园行的生长,以及与葡萄酒行业相关的其他应用。该任务可以通过破坏性方法来执行,这些方法需要耗时的任务,包括实验室中的数据收集和分析。然而,尽管采集的数据噪声较大,但无人机提供了一种更有效且更宽松的方法来收集高光谱数据。因此,首要任务是对这些数据进行处理,以对大量数据进行校正和下采样。此外,葡萄品种的高光谱特征非常相似。在这项工作中,提出了一种卷积神经网络 CNN,用于对 17 个红葡萄和白葡萄变种进行分类。这些样本不是对单个样本进行分类,而是与其邻近样本一起进行处理。因此,空间和光谱特征的提取通过 1 个空间关注层和 2 个初始块来解决。该管道从处理到数据集细化,最后到训练阶段。拟合模型在响应时间、准确性和数据可分离性方面进行了评估,并与用于分类高光谱数据的其他最先进的 CNN 进行了比较。事实证明,我们的网络更加轻量级,输入频段数量减少,可训练权重数量减少,因此训练时间也减少了。

SGTR+: End-to-end Scene Graph Generation with Transformer
Authors Rongjie Li, Songyang Zhang, Xuming He
由于其组合特性,场景图生成 SGG 仍然是一项具有挑战性的视觉理解任务。以前的大多数工作都采用自下而上的两阶段或基于点的单阶段方法,这种方法通常会遇到高时间复杂度或次优设计的问题。在这项工作中,我们提出了一种新颖的 SGG 方法来解决上述问题,将任务表述为二分图构建问题。为了解决上述问题,我们创建了一个基于转换器的端到端框架来生成实体和实体感知谓词建议集,并推断有向边以形成关系三元组。此外,我们设计了一个图组装模块来基于我们的实体感知结构推断二分场景图的连接性,使我们能够以端到端的方式生成场景图。基于二分图组装范式,我们进一步提出了一种新技术设计来解决实体感知建模的有效性和图组装的优化稳定性。配备增强的实体感知设计,我们的方法实现了最佳性能和时间复杂度。大量的实验结果表明,我们的设计能够在三个具有挑战性的基准上实现最先进的或可比的性能,超越大多数现有方法并享有更高的推理效率。

DatUS^2: Data-driven Unsupervised Semantic Segmentation with Pre-trained Self-supervised Vision Transformer
Authors Sonal Kumar, Arijit Sur, Rashmi Dutta Baruah
多个自监督培训方案的提案不断涌现,距离开发通用基础模型又近了一步。在此过程中,无监督下游任务被认为是验证通过自监督训练方案学习到的视觉特征的质量的评估方法之一。然而,无监督密集语义分割尚未作为下游任务进行探索,它可以在视觉变换器的自监督训练期间利用和评估块级特征表示中引入的语义信息的质量。因此,本文提出了一种新颖的数据驱动方法,用于无监督语义分割 DatUS 2 作为下游任务。 DatUS 2 为未标记的图像数据集生成语义一致且密集的伪注释分割掩模,而不使用任何视觉先验或同步数据。我们将这些伪注释分割掩码与地面真实掩码进行比较,以评估最近的自监督训练方案,以学习补丁级别的共享语义属性和片段级别的判别语义属性。最后,我们使用我们提出的下游任务(即 DatUS 2)评估现有最先进的自监督训练方案。此外,DatUS 2 的最佳版本优于无监督密集语义分割任务的现有最先进方法(15.02 MiOU) SUIM 数据集上的像素精度为 21.47。

MUSES: The Multi-Sensor Semantic Perception Dataset for Driving under Uncertainty
Authors Tim Br dermann, David Bruggemann, Christos Sakaridis, Kevin Ta, Odysseas Liagouris, Jason Corkill, Luc Van Gool
要在自动驾驶汽车中实现 5 级驾驶自动化,需要一个强大的语义视觉感知系统,能够在不同条件下解析来自不同传感器的数据。然而,现有的语义感知数据集通常缺乏自动驾驶汽车中通常使用的重要的非相机模态,或者它们没有利用此类模态来帮助和改进具有挑战性的条件下的语义注释。为了解决这个问题,我们引入了 MUSES,即 MUlti SEnsor 语义感知数据集,用于在不确定性增加的不利条件下驾驶。 MUSES 包括同步多模态记录和 2D 全景注释,可记录在不同天气和照明下捕获的 2500 张图像。该数据集集成了帧相机、激光雷达、雷达、事件相机和 IMU GNSS 传感器。我们新的两阶段全景注释协议捕获了真实情况中的类级别和实例级别的不确定性,并实现了我们引入的不确定性感知全景分割的新任务,以及标准语义和全景分割。事实证明,MUSES 在不同视觉条件下对于训练和评估模型既有效又具有挑战性,并且它为多模态和不确定性感知密集语义感知的研究开辟了新途径。

PSDF: Prior-Driven Neural Implicit Surface Learning for Multi-view Reconstruction
Authors Wanjuan Su, Chen Zhang, Qingshan Xu, Wenbing Tao
表面重建传统上依赖于基于多视图立体 MVS 的管道,该管道经常受到噪声和不完整几何体的影响。这是因为,虽然 MVS 已被证明是恢复场景几何形状的有效方法,特别是对于纹理丰富的局部细节区域,但它很难处理纹理低且光照变化大的区域,这些区域的光度一致性是不可靠的。最近,神经隐式表面重建 NISR 结合了表面渲染和体积渲染技术,并绕过 MVS 作为中间步骤,这已成为克服传统管道限制的有前途的替代方案。虽然 NISR 在简单场景上显示了令人印象深刻的结果,但从不受控制的现实世界场景中恢复精致的几何图形仍然具有挑战性,这是由于其优化不足造成的。为此,提出了框架 PSDF,该框架利用预训练的 MVS 网络的外部几何先验和 NISR 模型固有的内部几何先验来促进高质量的神经隐式表面学习。具体来说,引入了基于外部几何先验的可见性感知特征一致性损失和深度先验辅助采样。这些建议提供了强大的几何一致性约束并有助于定位表面交点,从而显着提高 NISR 的准确性和精细重建。同时,提出了内部先验引导重要性渲染,通过减轻 NISR 中的偏差渲染问题来增强重建表面网格的保真度。

Correlation-Embedded Transformer Tracking: A Single-Branch Framework
Authors Fei Xie, Wankou Yang, Chunyu Wang, Lei Chu, Yue Cao, Chao Ma, Wenjun Zeng
开发鲁棒且具有辨别力的外观模型一直是视觉对象跟踪领域长期存在的研究挑战。在流行的基于暹罗的范式中,由类似暹罗的网络提取的特征通常不足以对跟踪目标和干扰对象进行建模,从而阻碍了它们同时具有鲁棒性和区分性。虽然大多数暹罗跟踪器专注于设计强大的相关操作,但我们提出了一种受变压器启发的新颖的单分支跟踪框架。与 Siamese 类似的特征提取不同,我们的跟踪器将跨图像特征相关性深深嵌入到特征网络的多层中。通过多层广泛匹配两幅图像的特征,它可以抑制非目标特征,从而实现目标感知特征提取。输出特征可以直接用于预测目标位置,无需额外的相关步骤。因此,我们将两分支连体跟踪重新表述为概念上简单、完全基于变压器的单分支跟踪管道,称为 SBT。在对 SBT 基线进行深入分析后,我们总结了许多有效的设计原则,并提出了一种改进的跟踪器 SuperSBT。 SuperSBT采用具有局部建模层的分层架构来增强浅层特征。提出了一种统一的关系建模来消除复杂的手工层模式设计。 SuperSBT 通过掩模图像建模预训练、集成时间建模以及配备专用预测头进一步改进。因此,SuperSBT 在 LaSOT、TrackingNet 和 GOT 10K 中的 AUC 分数比 SBT 基线高出 4.7、3.0 和 4.5。值得注意的是,SuperSBT 将 SBT 的速度从 37 FPS 大幅提升至 81 FPS。

Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects
Authors Dachong Li, Li Li, Zhuangzhuang Chen, Jianqiang Li
最近的研究表明,视觉变压器 ViT 的卓越性能得益于大的感受野。因此,大卷积核设计成为让卷积神经网络 CNN 再次伟大的理想解决方案。然而,典型的大卷积核被证明是硬件不友好的算子,导致各种硬件平台的兼容性打折扣。因此,简单地增大卷积核大小是不明智的。在本文中,我们揭示了小卷积核和卷积运算可以实现大核尺寸的闭合效果。然后,我们提出了一种明智的移位算子,确保 CNN 在稀疏机制的帮助下捕获长范围依赖关系,同时保持硬件友好。实验结果表明,我们的移位算子显着提高了常规 CNN 的准确性,同时显着降低了计算要求。在 ImageNet 1k 上,我们的平移增强 CNN 模型优于最先进的模型。

Enhancing Object Detection Performance for Small Objects through Synthetic Data Generation and Proportional Class-Balancing Technique: A Comparative Study in Industrial Scenarios
Authors Jibinraj Antony, Vinit Hegiste, Ali Nazeri, Hooman Tavakoli, Snehal Walunj, Christiane Plociennik, Martin Ruskowski
对象检测 OD 已被证明是提取本地化类别信息的重要计算机视觉方法,并且在行业中具有多种应用。尽管许多最先进的 SOTA OD 模型在中型和大型物体上表现良好,但它们在小型物体上似乎表现不佳。在大多数工业用例中,收集和注释小对象的数据很困难,因为这既耗时又容易出现人为错误。此外,这些数据集可能不平衡,并且常常导致模型收敛效率低下。为了应对这一挑战,本研究提出了一种新颖的方法,注入额外的数据点来提高 OD 模型的性能。使用合成数据生成,可以最大限度地减少小对象数据点的数据收集和注释的难度,并创建分布均衡的数据集。本文讨论了简单的比例类平衡技术的效果,以实现 OD 模型更好的锚匹配。

Pragmatic Communication in Multi-Agent Collaborative Perception
Authors Yue Hu, Xianghe Pang, Xiaoqi Qin, Yonina C. Eldar, Siheng Chen, Ping Zhang, Wenjun Zhang
协作感知允许每个代理通过与其他代理交换消息来增强其感知能力。它本质上导致感知能力和通信成本之间的权衡。以前的工作在代理之间传输完整的全帧高维特征图,导致大量的通信成本。为了提高通信效率,我们建议仅传输协作者下游任务所需的信息。这种语用通信策略侧重于三个关键方面:i 语用消息选择,从完整数据中选择任务关键部分,从而产生空间和时间上稀疏的特征向量;ii 语用消息表示,通过任务自适应实现高维特征向量的语用近似。字典,支持与整数索引进行通信 iii 务实的合作者选择,识别有益的合作者,修剪不必要的通信链接。遵循这一策略,我们首先制定一个用于感知通信权衡的数学优化框架,然后提出 PragComm,一个多智能体协作感知系统,具有两个关键组件:单智能体检测和跟踪以及务实协作。拟议的 PragComm 提倡务实的沟通并适应广泛的沟通条件。我们评估了 PragComm 在现实世界(V2V4Real)和模拟数据集(OPV2V 和 V2X SIM2.0)中的协作 3D 对象检测和跟踪任务。 PragComm 的性能始终优于以前的方法,OPV2V 上的通信量降低了 32.7K 倍以上。

ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation
Authors Shengze Li, Jianjian Cao, Peng Ye, Yuhan Ding, Chongjun Tu, Tao Chen
最近,CLIP 和 SAM 等基础模型在零样本异常分割 ZSAS 任务中表现出了良好的性能。然而,基于 CLIP 或基于 SAM 的 ZSAS 方法仍然存在不可忽视的关键缺点 1 CLIP 主要关注不同输入之间的全局特征对齐,导致局部异常部分的不精确分割 2 SAM 往往会在没有适当提示约束的情况下生成大量冗余掩模,导致复杂的后处理要求。在这项工作中,我们创新性地提出了一个名为 ClipSAM for ZSAS 的 CLIP 和 SAM 协作框架。 ClipSAM 背后的见解是利用 CLIP 的语义理解能力进行异常定位和粗分割,进一步用作 SAM 细化异常分割结果的提示约束。具体来说,我们引入了一个关键的统一多尺度跨模式交互 UMCI 模块,用于在 CLIP 的多个尺度上将语言与视觉特征进行交互,以推理异常位置。然后,我们设计了一种新颖的多级掩模细化MMR模块,该模块利用位置信息作为SAM的多级提示来获取掩模的层次级别并将它们合并。

Fast Semi-supervised Unmixing using Non-convex Optimization
Authors Behnood Rasti, Alexandre Zouaoui, Julien Mairal, Jocelyn Chanussot
在本文中,我们介绍了一种专为基于半监督库的解混合而定制的新型线性模型。我们的模型考虑了文库不匹配的情况,同时能够将丰度总和强制执行为一个约束 ASC 。与传统的稀疏分解方法不同,该模型涉及非凸优化,带来了巨大的计算挑战。我们证明了乘子 ADMM 交替方法在循环解决这些复杂问题方面的功效。我们提出了两种半监督分解方法,除了 ASC 稀疏先验和凸性约束之外,每种方法还依赖于应用于新模型的不同先验。我们的实验结果验证了对于端元库来说,强制凸性约束优于稀疏先验。这些结果在考虑了光谱变异性和不同像素纯度水平的三个模拟数据集以及赤铜矿数据集上得到了证实。此外,我们与传统的稀疏分解方法的比较展示了我们提出的模型的相当大的优势,这需要非凸优化。值得注意的是,我们对所提出的算法的快速半监督分解 FaSUn 和使用软收缩 SUnS 的稀疏分解的实现证明比传统的稀疏分解方法更有效。

UniHDA: Towards Universal Hybrid Domain Adaptation of Image Generators
Authors Hengjia Li, Yang Liu, Yuqi Lin, Zhanwei Zhang, Yibo Zhao, weihang Pan, Tu Zheng, Zheng Yang, Yuchun Jiang, Boxi Wu, Deng Cai
生成域适应取得了显着的进展,使我们能够将预先训练的生成器适应新的目标域。然而,现有方法只是简单地使生成器适应单个目标域,并且仅限于单一模态,文本驱动或图像驱动。此外,它们很容易过度拟合域特定属性,这不可避免地会损害跨域一致性。在本文中,我们提出了 UniHDA,这是一个统一且通用的框架,用于具有来自多个领域的多模态参考的生成混合域适应。我们使用 CLIP 编码器将多模态参考投影到统一的嵌入空间中,然后对来自多个目标域的方向向量进行线性插值以实现混合域自适应。为了确保跨域一致性,我们提出了一种新颖的跨域空间结构CSS损失,它维护源和目标生成器之间的详细空间结构信息。实验表明,适应的生成器可以合成具有各种属性组合的逼真图像。

RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos
Authors Hongchi Xia, Yang Fu, Sifei Liu, Xiaolong Wang
我们引入了一种在野外捕获的新 RGB D 对象数据集,称为 WildRGB D。与大多数现有的仅进行 RGB 捕获的现实世界以对象为中心的数据集不同,深度通道的直接捕获允许更好的 3D 注释和更广泛的下游应用。 WildRGB D 包含大规模类别级别 RGB D 对象视频,这些视频是使用 iPhone 360​​ 度围绕对象拍摄的。它包含约 8500 个录制的对象和近 20000 个 RGB D 视频,涉及 46 个常见对象类别。这些视频是在不同杂乱的背景下拍摄的,采用三种设置来覆盖尽可能多的现实世界场景:一个视频中的单个对象,一个视频中的多个对象,一个视频中的一个带有静态手的对象。该数据集使用对象蒙版、真实世界规模的相机姿势以及从 RGBD 视频重建的聚合点云进行注释。我们使用 WildRGB D 对四个任务进行了基准测试,包括新颖的视图合成、相机姿态估计、物体 6d 姿态估计和物体表面重建。我们的实验表明,大规模捕获 RGB D 对象为推进 3D 对象学习提供了巨大的潜力。

NeRF-AD: Neural Radiance Field with Attention-based Disentanglement for Talking Face Synthesis
Authors Chongke Bi, Xiaoxing Liu, Zhilei Liu
音频驱动的人脸合成是当前多维信号处理和多媒体领域的研究热点之一。 Neural Radiance Field NeRF 最近被引入这一研究领域,以增强生成面部的真实感和 3D 效果。然而,大多数现有的基于 NeRF 的方法要么给 NeRF 带来复杂的学习任务,同时缺乏监督多模态特征融合的方法,要么无法精确地将音频映射到与语音运动相关的面部区域。这些原因最终导致现有方法产生不准确的唇部形状。本文将 NeRF 学习任务的一部分提前,并提出了一种通过 NeRF 和基于注意力的解缠 NeRF AD 进行说话的面部合成方法。特别地,引入基于注意力的解缠结模块,以使用与语音相关的面部动作单元AU信息将面部解缠成音频面部和身份面部。为了精确调节音频如何影响说话的面孔,我们仅将音频面孔与音频功能融合。此外,AU信息也被用来监督这两种模式的融合。广泛的定性和定量实验表明,我们的 NeRF AD 在生成逼真的说话脸部视频(包括图像质量和唇形同步)方面优于最先进的方法。

EndoGaussian: Gaussian Splatting for Deformable Surgical Scene Reconstruction
Authors Yifan Liu, Chenxin Li, Chen Yang, Yixuan Yuan
从内窥镜立体视频重建可变形组织在许多下游手术应用中至关重要。然而,现有方法的推理速度慢,这极大地限制了它们的实际使用。在本文中,我们介绍了 EndoGaussian,这是一种基于 3D 高斯 Splatting 构建的实时手术场景重建框架。我们的框架将动态手术场景表示为规范高斯和时间相关的变形场,该变形场预测新时间戳下的高斯变形。由于高效的高斯表示和并行渲染管道,我们的框架与以前的方法相比显着加快了渲染速度。此外,我们将变形场设计为轻量级编码体素和极小的 MLP 的组合,从而可以在较小的渲染负担下实现高效的高斯跟踪。此外,我们设计了一种整体高斯初始化方法,以充分利用表面分布先验,这是通过从输入图像序列中搜索信息点来实现的。在公共内窥镜数据集上的实验表明,我们的方法可以实现实时渲染速度 195 FPS 实时,100 倍增益,同时保持最先进的重建质量 35.925 PSNR 和 2 分钟场景内最快的训练速度,为术中手术显示出巨大的前景应用程序。

Self-Supervised Vision Transformers Are Efficient Segmentation Learners for Imperfect Labels
Authors Seungho Lee, Seoungyoon Kang, Hyunjung Shim
这项研究展示了一种使用自监督视觉转换器 SSVT 进行语义分割的经济有效的方法。通过冻结 SSVT 主干并训练轻量级分割头,我们的方法有效地利用了不完美的标签,从而提高了对标签缺陷的鲁棒性。实证实验表明,对于各种注释类型(包括涂鸦、点级别和图像级别标签),与现有方法相比,性能有了显着提高。该研究强调了自监督视觉转换器在处理不完美标签方面的有效性,为语义分割提供了实用且高效的解决方案,同时降低了注释成本。通过大量的实验,我们确认我们的方法对于所有类型的不完美标签都优于基线模型。

Detecting and recognizing characters in Greek papyri with YOLOv8, DeiT and SimCLR
Authors Robert Turnbull, Evelyn Mannix
从纸莎草手稿的传真图像中分离和识别单个字符的能力为数字分析提供了丰富的机会。因此,ICDAR 2023 纸莎草希腊字母检测和识别竞赛作为第 17 届国际文档分析与识别会议的一部分举行。本文讨论了我们提交的竞赛内容。我们使用 YOLOv8 模型集合来检测和分类单个字符,并采用两种不同的方法来细化字符预测,包括基于 Transformer 的 DeiT 方法和使用 SimCLR(一种自监督学习)在大量未标记数据上训练的 ResNet 50 模型方法。我们提交的内容以 42.2 的 mAP 赢得了识别挑战,并以 51.4 的平均精度 mAP 赢得了检测挑战亚军。在比并集阈值 0.5 更宽松的交集处,我们实现了检测和分类的最高平均精度和平均召回率结果。

Convolutional Initialization for Data-Efficient Vision Transformers
Authors Jianqiao Zheng, Xueqian Li, Simon Lucey
在小数据集上训练视觉变换器网络带来了挑战。相比之下,卷积神经网络 CNN 可以通过利用其架构归纳偏差来实现最先进的性能。在本文中,我们研究了这种归纳偏差是否可以重新解释为视觉变换器网络中的初始化偏差。我们的方法的动机是发现随机脉冲滤波器可以实现与 CNN 中的学习滤波器几乎相当的性能。

Open-Set Facial Expression Recognition
Authors Yuhang Zhang, Yue Yao, Xuannan Liu, Lixiong Qin, Wenjing Wang, Weihong Deng
面部表情识别 FER 模型通常在具有固定数量的七个基本类别的数据集上进行训练。然而,最近的研究工作指出,表达方式远多于基本表达方式。因此,当这些模型部署在现实世界中时,它们可能会遇到未知的类,例如无法分类到现有基本类的复合表达式。为了解决这个问题,我们首次提出了开放集 FER 任务。尽管现有的开放集识别方法有很多,但我们认为它们对于开放集 FER 效果不佳,因为 FER 数据都是人脸,类间距离非常小,这使得开放集样本与封闭集样本非常相似。在本文中,我们首次提出了一种开放集 FER 的新方法,将类间距离较小的缺点转化为优点。具体来说,我们发现较小的类间距离允许开放集样本的稀疏分布的伪标签,这可以被视为对称的噪声标签。基于这一新颖的观察,我们将开放集 FER 转换为噪声标签检测问题。我们进一步提出了一种新颖的方法,该方法结合了注意力图一致性和循环训练来检测开放集样本。对各种 FER 数据集的广泛实验表明,我们的方法明显优于最先进的开放集识别方法。

Small Language Model Meets with Reinforced Vision Vocabulary
Authors Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, En Yu, Jianjian Sun, Chunrui Han, Xiangyu Zhang
2023 年玩大视觉语言模型 LVLM 在 AI 社区中很流行。然而,流行的 LVLM 的参数数量相对较多(超过 7B),这使得在消费级 GPU 上训练和部署变得困难,这让许多资源有限的研究人员望而却步。想象一下,如果在我们唯一的旧 GTX1080ti 游戏卡上体验当前 LVLM 的所有功能,那该有多酷。因此,我们在本报告中提出了 Vary 玩具,一个小尺寸的 Vary 以及 Qwen 1.8B 作为基础大型语言模型。在Vary toy中,我们引入了改进的视觉词汇表,使模型不仅拥有Vary的所有特征,而且还具有更多的通用性。具体来说,我们在生成视觉词汇的过程中用目标检测驱动的正样本数据替换自然图像的负样本,更充分地利用词汇网络的能力,使其能够有效地编码与自然物体相对应的视觉信息。对于实验,Vary toy 在 DocVQA 上可以达到 65.6 ANLS,在 ChartQA 上达到 59.1 准确率,在 RefCOCO 上达到 88.1 准确率,在 MMVet 上达到 29 准确率。

Explore Synergistic Interaction Across Frames for Interactive Video Object Segmentation
Authors Kexin Li, Tao Jiang, Zongxin Yang, Yi Yang, Yueting Zhuang, Jun Xiao
交互式视频对象分割 iVOS 是一项具有挑战性的任务,需要实时人机交互。为了提高用户体验,需要考虑用户的输入习惯、分割质量、运行时间和内存消耗。然而,现有方法输入模式单一、运行速度慢,损害了用户体验。

TD^2-Net: Toward Denoising and Debiasing for Dynamic Scene Graph Generation
Authors Xin Lin, Chong Shi, Yibing Zhan, Zuopeng Yang, Yaqi Wu, Dacheng Tao
动态场景图生成 SGG 专注于检测视频中的对象并确定它们的成对关系。现有的动态 SGG 方法通常会遇到几个问题,包括 1 上下文噪声,因为某些帧可能包含被遮挡和模糊的对象。 2 标签偏差,主要是由于少数正关系样本与大量负关系样本之间的高度不平衡造成的。此外,关系的分布呈现出长尾模式。为了解决上述问题,在本文中,我们引入了一种名为 TD 2 Net 的网络,旨在对动态 SGG 进行去噪和去偏置。具体来说,我们首先提出了一种去噪时空变换器模块,该模块可以通过强大的上下文信息增强对象表示。这是通过设计一个可微的 Top K 对象选择器来实现的,该选择器利用 gigbel softmax 采样策略为每个对象选择相关邻域。其次,我们引入不对称重新加权损失来缓解标签偏差问题。该损失函数集成了不对称聚焦因子和样本量,以调整分配给各个样本的权重。系统的实验结果证明了我们提出的 TD 2 Net 相对于 Action Genome 数据库现有最先进方法的优越性。

Zero Shot Open-ended Video Inference
Authors Ee Yeo Keat, Zhang Hao, Alexander Matyasko, Basura Fernando
对未修剪视频的零镜头开放式推理提出了重大挑战,特别是当没有使用带注释的数据来导航推理方向时。在这项工作中,我们的目标是通过引入一个适应性强的框架来解决这个尚未开发的领域,该框架有效地结合了冻结视觉语言 VL 模型和现成的大型语言模型 LLM,用于执行零样本开放式推理任务,而无需任何额外的训练或微调。我们的综合实验涵盖各种视频动作数据集,用于目标推理和动作识别任务。结果表明,与开放式和封闭式场景中的传统视觉语言模型相比,该框架在目标推理方面具有优越的性能。

Exploration and Improvement of Nerf-based 3D Scene Editing Techniques
Authors Shun Fang, Ming Cui, Xing Feng, Yanan Zhang
NeRF的高质量场景合成能力在提出后的几年里迅速被学者们接受,并在3D场景表示和合成方面取得了重大进展。然而高昂的计算成本限制了场景的直观高效编辑,使得NeRF在场景编辑领域的发展面临诸多挑战。本文回顾了近年来学者们对 NeRF 在场景或物体编辑领域的初步探索,主要是通过 GaN、Transformer 等残差模型与 NeRF 的结合,改变新合成场景中场景或物体的形状和纹理, NeRF场景编辑的泛化能力进一步拓展,包括实现实时新视角编辑反馈、文本合成3D场景的多模态编辑、4D合成性能,以及对光影编辑的深入探索,初步实现了间接触摸编辑和编辑的优化。复杂场景中的细节表现。目前,大多数 NeRF 编辑方法侧重于间接点的接触点和材质,但在处理更复杂或更大的 3D 场景时,很难平衡准确性、广度、效率和质量。

Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration
Authors Yifan Zhang, Siyu Ren, Junhui Hou, Jinjian Wu, Guangming Shi
本文介绍了一种新颖的自监督学习框架,用于增强自动驾驶场景中的 3D 感知。具体来说,我们的方法名为 NCLR,专注于 2D 3D 神经校准,这是一种新颖的借口任务,用于估计刚性变换对齐相机和 LiDAR 坐标系。首先,我们提出可学习的变换对齐来弥合图像和点云数据之间的域差距,将特征转换为统一的表示空间以进行有效的比较和匹配。其次,我们利用融合特征识别图像和点云之间的重叠区域。第三,我们建立密集的 2D 3D 对应关系来估计刚性变换。该框架不仅学习从点到像素的细粒度匹配,而且还实现了图像和点云的整体对齐,了解它们的相对姿态。我们通过将预训练的主干应用于下游任务(例如基于 LiDAR 的 3D 语义分割、对象检测和全景分割)来展示 NCLR 的功效。对各种数据集的综合实验说明了 NCLR 相对于现有自监督方法的优越性。结果证实,不同模式的联合学习显着增强了网络的理解能力和学习表示的有效性。

Methods and strategies for improving the novel view synthesis quality of neural radiation field
Authors Shun Fang, Ming Cui, Xing Feng, Yanna Lv
神经辐射场 NeRF 技术可以从 2D 图像中学习场景的 3D 隐式模型,并合成逼真的新颖视图图像。该技术受到了业界的广泛关注,具有良好的应用前景。针对NeRF图像渲染质量需要提高的问题,近三年来许多研究人员提出了各种提高渲染质量的方法。对最新相关论文进行分类评述,分析质量改进背后的技术原理,探讨质量改进方法未来的演进方向。

NIV-SSD: Neighbor IoU-Voting Single-Stage Object Detector From Point Cloud
Authors Shuai Liu, Di Wang, Quan Wang, Kai Huang
以前的单级检测器通常会遇到定位精度和分类置信度之间的不一致问题。为了解决错位问题,我们引入了一种新的校正方法,称为邻居 IoU 投票 NIV 策略。通常,分类和回归被视为独立的分支,因此很难在它们之间建立联系。因此,分类置信度不能准确反映回归质量。 NIV策略可以作为分类和回归分支之间的桥梁,通过从回归输出计算两类统计数据来校正分类置信度。此外,为了缓解具有密集点的容易对象的完整对象和具有稀疏点的困难对象的不完整对象的检测精度的不平衡,我们提出了一种新的数据增强方案,称为对象重采样。它通过将部分简单对象随机转换为困难对象,对简单对象进行欠采样,对困难对象进行过采样。最后,结合 NIV 策略和对象重采样增强,我们设计了一种高效的单级检测器,称为 NIV SSD。对多个数据集的大量实验表明了 NIV 策略的有效性以及 NIV SSD 检测器的竞争性能。

MAST: Video Polyp Segmentation with a Mixture-Attention Siamese Transformer
Authors Geng Chen, Junqing Yang, Xiaozhou Pu, Ge Peng Ji, Huan Xiong, Yongsheng Pan, Hengfei Cui, Yong Xia
肠镜视频中息肉的准确分割对于息肉治疗和结直肠癌的早期预防具有重要意义。然而,由于在结肠镜检查视频中建模长范围时空关系存在困难,因此它具有挑战性。在本文中,我们通过一种新颖的混合注意力暹罗变压器 MAST 来解决这一具有挑战性的任务,它通过混合注意力机制明确地模拟长范围时空关系,以实现精确的息肉分割。具体来说,我们首先构建一个连体变压器架构来联合编码配对视频帧的特征表示。然后,我们设计了一个混合注意模块来利用帧内和帧间相关性,增强具有丰富时空关系的特征。最后,增强的特征被馈送到两个并行解码器以预测分割图。据我们所知,我们的 MAST 是第一个专用于视频息肉分割的 Transformer 模型。在大规模 SUN SEG 基准测试上进行的大量实验证明,与最先进的竞争对手相比,MAST 具有卓越的性能。

A Novel Garment Transfer Method Supervised by Distilled Knowledge of Virtual Try-on Model
Authors Naiyu Fang, Lemiao Qiu, Shuyou Zhang, Zili Wang, Kerui Hu, Jianrong Tan
当购物者在线选择服装时,服装转移技术将模特图像中的服装转移到购物者的图像上,从而使购物者能够决定该服装是否适合他们。由于服装转移利用狂野、廉价的人物形象作为服装条件,引起了社会的广泛关注,并具有巨大的商业潜力。然而,由于服装转移的基本事实在现实中几乎不可用,以前的研究将服装转移视为姿势转移或服装姿势解开,并在自监督学习中训练服装转移,但并没有完全涵盖服装转移意图。因此,监督服装转移的培训是一个难题。值得注意的是,虚拟试用技术通过自我监督学习表现出了卓越的性能。我们通过虚拟试穿的知识蒸馏来监督服装转移培训。具体来说,我们首先在多个阶段训练转移解析推理模型,为下游任务提供形状指导。迁移解析推理模型从解析推理模型的尝试中学习响应和特征知识,并从地面事实中吸收硬知识。通过利用虚拟试穿中的变形知识,我们通过学习形状和内容对应关系来估计渐进流程,以精确地变形服装。为了增强转移真实感,我们提出了一个精心设计的手臂再生任务来推断暴露的皮肤像素内容。

The Neglected Tails of Vision-Language Models
Authors Shubham Parashar, Zhiqiu Lin, Tian Liu, Xiangjue Dong, Yanan Li, Deva Ramanan, James Caverlee, Shu Kong
视觉语言模型 VLM 在零样本识别方面表现出色,但在视觉概念之间表现出严重不平衡的性能。例如,尽管 CLIP 在 ImageNet 72.7 上具有令人印象深刻的平均零射击精度,但在 10 个概念(例如陀螺仪和夜蛇)上得到 10,大概是因为这些概念在 VLM 不平衡的预训练数据中表现不足。然而,评估这种不平衡具有挑战性,因为计算 VLM 大规模预训练数据中特定概念的频率并非易事。我们的工作首次尝试通过分析预训练文本来测量概念频率。我们使用现成的语言模型来帮助计算包含给定概念同义词的相关文本并解决语言歧义。我们确认像 LAION 这样的流行 VLM 数据集确实表现出长尾概念分布,这与每个类别的准确度密切相关。此外,当代的多模态系统,例如视觉聊天机器人和文本到图像生成器,也与我们的方法识别的罕见概念作斗争。为了减轻 VLM 在零样本识别中的不平衡性能,我们提出 REtrieval Augmented Learning REAL。首先,REAL 不是使用原始类名来提示 VLM,而是使用 VLM 预训练文本中最常见的同义词。这已经优于人工设计和法学硕士在九个基准数据集上生成的提示,可能是因为 VLM 已经看到了更多与常用同义词相关的图像。其次,REAL 使用所有概念同义词来检索小型、类平衡的预训练数据集,以训练鲁棒的分类器。

InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction
Authors Zhenxing Ming, Julie Stephany Berrio, Mao Shan, Stewart Worrall
本文介绍了 InverseMatrixVT3D,这是一种将多视图图像特征转换为 3D 特征量以进行 3D 语义占用预测的有效方法。构建 3D 体积的现有方法通常依赖于深度估计、设备特定运算符或变压器查询,这阻碍了 3D 占用模型的广泛采用。相比之下,我们的方法利用两个投影矩阵来存储静态映射关系和矩阵乘法,以有效生成全局鸟瞰图 BEV 特征和局部 3D 特征体。具体来说,我们通过在多视图图像特征图和两个稀疏投影矩阵之间执行矩阵乘法来实现这一点。我们为投影矩阵引入稀疏矩阵处理技术,以优化 GPU 内存使用。此外,还提出了全局局部注意力融合模块,将全局 BEV 特征与局部 3D 特征体积相集成,以获得最终的 3D 体积。我们还采用多尺度监督机制,进一步提高绩效。 nuScenes 数据集上的综合实验证明了我们方法的简单性和有效性。

AdaEmbed: Semi-supervised Domain Adaptation in the Embedding Space
Authors Ali Mottaghi, Mohammad Abdullah Jamal, Serena Yeung, Omid Mohareri
半监督域适应 SSDA 是计算机视觉中的一个关键障碍,特别是考虑到现实世界中标记数据的频繁稀缺。这种稀缺性通常会导致在广泛数据集上训练的基础模型在应用于新领域时表现不佳。 AdaEmbed 是我们新提出的 SSDA 方法,为应对这些挑战提供了一个有前景的解决方案。利用未标记数据的潜力,AdaEmbed 通过学习共享嵌入空间,促进知识从标记源域转移到未标记目标域。该模型通过基于建立的嵌入空间生成准确且均匀的伪标签,克服了传统SSDA的局限性,从而显着提高了性能。我们的方法的有效性通过对 DomainNet、Office Home 和 VisDA C 等基准数据集的大量实验得到验证,其中 AdaEmbed 始终优于所有基准,为 SSDA 设定了新的技术水平。凭借其简单的实现和高数据效率,AdaEmbed 成为针对标记数据稀缺的现实场景的强大且务实的解决方案。

Multi-modal News Understanding with Professionally Labelled Videos (ReutersViLNews)
Authors Shih Han Chou, Matthew Kowal, Yasmin Niknam, Diana Moyano, Shayaan Mehdi, Richard Pito, Cheng Zhang, Ian Knopke, Sedef Akinli Kocak, Leonid Sigal, Yalda Mohsenzadeh
尽管在视频语言理解领域取得了进展,但当前最先进的算法在理解高抽象级别的视频(例如面向新闻的视频)的能力方面仍然受到限制。或者,人类可以轻松地合并来自视频和语言的信息,以推断超出像素中视觉可观察到的信息。一个例子是观看新闻报道,其中事件的背景在理解故事方面与事件本身一样发挥着重要作用。为了在算法中设计这种能力的解决方案,我们对路透社收集的内部数据集(称为路透社视频语言新闻ReutersViLNews数据集)进行了大规模分析,该数据集专注于高级视频语言理解,重点是长篇新闻。 ReutersViLNews 数据集由新闻行业专业人士多年来收集和标记的长篇新闻视频组成,包含来自世界各地的重要新闻报道。每个视频都涉及一个故事,并包含实际事件的动作镜头、对与该事件相关的人员的采访、附近地区的镜头等等。 ReutersViLNews 数据集包含灾难、金融、娱乐、健康、政治、体育和其他七个主题类别的视频,并带有从高级到低级的注释、标题说明、视觉视频描述、高级故事描述、关键字和位置。我们首先对ReutersViLNews 的数据集统计数据与之前的数据集进行比较分析。然后,我们对四种不同视频语言任务的最先进方法进行基准测试。

Icy Moon Surface Simulation and Stereo Depth Estimation for Sampling Autonomy
Authors Ramchander Bhaskara, Georgios Georgakis, Jeremy Nash, Marissa Cameron, Joseph Bowkett, Adnan Ansar, Manoranjan Majji, Paul Backes
冰冷月球着陆器任务的自主采样需要了解采样地形的地形和光度特性。无法获得鸟瞰图或着陆器视角的高分辨率视觉数据集是选择、验证或开发感知系统的障碍。我们尝试通过 1 提出用于冰月表面模拟 GUISS 框架的图形实用程序,用于生成涵盖大量光度特性范围的通用立体数据集,2 专注于基于立体的视觉感知系统并评估传统学习和深度学习基于立体匹配深度估计的算法。冰冷的卫星地形土卫二和欧罗巴的表面反射特性是根据之前任务的多光谱数据集推断出来的。通过程序地形生成和物理上有效的照明源,我们的框架可以适应有关冰冷月球地形的视觉表示的各种假设。接下来是对不同视觉假设下立体匹配算法性能的研究。最后,我们强调模拟土卫二和木卫二等冰冷卫星的感知数据资产需要解决的长期挑战。

Scaling Up Quantization-Aware Neural Architecture Search for Efficient Deep Learning on the Edge
Authors Yao Lu, Hiram Rayo Torres Rodriguez, Sebastian Vogel, Nick van de Waterlaat, Pavol Jancura
神经架构搜索 NAS 已成为为边缘设备设计准确、高效网络的事实上的方法。由于模型通常针对边缘部署进行量化,因此最近的工作研究了量化感知 NAS QA NAS,以搜索高度准确且高效的量化模型。然而,现有的 QA NAS 方法,特别是少位混合精度 FB MP 方法,无法扩展到更大的任务。因此,QA NAS 主要局限于小规模任务和小型网络。在这项工作中,我们提出了一种方法,通过利用块明智的 NAS 引入的块明智的公式,在大规模任务上启用 QA NAS INT8 和 FB MP。

OCT-SelfNet: A Self-Supervised Framework with Multi-Modal Datasets for Generalized and Robust Retinal Disease Detection
Authors Fatema E Jannat, Sina Gholami, Minhaj Nur Alam, Hamed Tabkhi
尽管人工智能产生了革命性的影响,并且开发了本地训练的算法,但从医疗人工智能中的多模态数据中实现广泛的广义学习仍然是一个重大挑战。这一差距阻碍了可扩展医疗人工智能解决方案的实际部署。为了应对这一挑战,我们的研究贡献了一个自我监督的稳健机器学习框架 OCT SelfNet,用于使用光学相干断层扫描 OCT 图像检测眼部疾病。在这项工作中,来自不同机构的各种数据集被结合起来,以实现更全面的表示。我们的方法使用两阶段训练方法解决了这个问题,该方法将自监督预训练和监督微调与基于 SwinV2 主干的掩模自动编码器相结合,为现实世界的临床部署提供了解决方案。对具有不同编码器主干、低数据设置、看不见的数据设置和增强效果的三个数据集进行的广泛实验表明,我们的方法在所有测试中始终获得超过 77 的 AUC ROC 性能,从而优于基线模型 Resnet 50,而基线模型超过 54 。此外,就 AUC PR 指标而言,我们提出的方法超过了 42,与仅超过 33 的基线相比,性能显着提高了至少 10。

Contrastive Learning and Cycle Consistency-based Transductive Transfer Learning for Target Annotation
Authors Shoaib Meraj Sami, Md Mahedi Hasan, Nasser M. Nasrabadi, Raghuveer Rao
注释自动目标识别 ATR 是一项极具挑战性的任务,主要是由于目标域中标记数据的不可用。因此,有必要利用源域图像的标记信息构建最优的目标域分类器。之前的文献中已经提出了转导迁移学习 TTL 方法,该方法结合了基于 CycleGAN 的不配对域翻译网络,以实现有效的 ATR 注释。尽管该方法展示了 ATR 的巨大潜力,但它严重受到注释性能较低、Fr chet Inception Distance FID 分数较高以及合成图像中存在视觉伪影的影响。为了解决这些问题,我们提出了一种混合对比学习基础的不配对域翻译 H CUT 网络,该网络实现了显着较低的 FID 分数。它结合了注意力和熵来强调领域特定区域,一个噪声特征混合模块来生成高变分合成负补丁,以及一个调制噪声对比估计 MoNCE 损失,以使用最佳传输重新加权所有负补丁以获得更好的性能。我们提出的基于对比学习和循环一致性的 TTL C3TTL 框架由两个 H CUT 网络和两个分类器组成。它同时优化了循环一致性、MoNCE 和身份丢失。在 C3TTL 中,通过双射映射采用了两个 H CUT 网络,将重建的源域图像输入到预训练的分类器中,以指导最佳的目标域分类器。

Large-scale Reinforcement Learning for Diffusion Models
Authors Yinan Zhang, Eric Tzeng, Yilun Du, Dmitry Kislyuk
文本到图像扩散模型是一类深度生成模型,它已展现出令人印象深刻的高质量图像生成能力。然而,这些模型很容易受到网络规模文本图像训练对产生的隐式偏差的影响,并且可能无法准确地对我们关心的图像的各个方面进行建模。这可能会导致样本不理想、模型偏差以及不符合人类道德和偏好的图像。在本文中,我们提出了一种有效的可扩展算法,可以使用强化学习 RL 跨多种奖励函数(例如人类偏好、组合性和数百万张图像的公平性)来改进扩散模型。我们说明了我们的方法如何显着优于现有方法,使扩散模型与人类偏好保持一致。

Multimodal Data Curation via Object Detection and Filter Ensembles
Authors Tzu Heng Huang, Changho Shin, Sui Jiet Tay, Dyah Adila, Frederic Sala
我们提出了一种管理多模式数据的方法,我们将其用于参加 2023 年 DataComp 竞赛过滤赛道。我们的技术结合了对象检测和基于弱监督的集成。在我们方法的两个步骤的第一步中,我们采用开箱即用的零射击对象检测模型来提取粒度信息并生成各种滤波器设计。第二步,我们采用弱监督来集成过滤规则。与最佳性能基线相比,此方法的性能提高了 4 倍,在撰写本文时在小规模赛道中排名最高。

SegmentAnyBone: A Universal Model that Segments Any Bone at Any Location on MRI
Authors Hanxue Gu, Roy Colglazier, Haoyu Dong, Jikai Zhang, Yaqian Chen, Zafer Yildiz, Yuwen Chen, Lin Li, Jichen Yang, Jay Willhite, Alex M. Meyer, Brian Guo, Yashvi Atul Shah, Emily Luo, Shipra Rajput, Sally Kuehn, Clark Bulleit, Kevin A. Wu, Jisoo Lee, Brandon Ramirez, Darui Lu, Jay M. Levin, Maciej A. Mazurowski
磁共振成像 MRI 在放射学中至关重要,可提供对人体的非侵入性高质量洞察。将 MRI 精确分割成不同的器官和组织将非常有益,因为它可以提高对图像内容的理解并实现重要的测量,这对于准确的诊断和有效的治疗计划至关重要。具体来说,在 MRI 中分割骨骼将允许对肌肉骨骼状况进行更定量的评估,而这种评估在当前的放射学实践中基本上不存在。公开使用的算法有限,并且文献中包含的算法通常针对特定的解剖区域,这一事实说明了骨 MRI 分割的难度。在我们的研究中,我们提出了一种通用的、公开可用的深度学习模型,用于跨多个标准 MRI 位置的 MRI 骨分割。所提出的模型可以在全自动分割和基于提示的分割两种模式下运行。我们的贡它扩展了 Segment Anything Model SAM 4 对我们的算法和以前的方法的比较分析,以及 5 对我们的算法在不同解剖位置和 MRI 序列以及外部数据集上的泛化分析。

AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents
Authors Michael Ahn, Debidatta Dwibedi, Chelsea Finn, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Karol Hausman, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Sean Kirmani, Isabel Leal, Edward Lee, Sergey Levine, Yao Lu, Isabel Leal, Sharath Maddineni, Kanishka Rao, Dorsa Sadigh, Pannag Sanketi, Pierre Sermanet, Quan Vuong, Stefan Welker, Fei Xia, Ted Xiao, Peng Xu, Steve Xu, Zhuo Xu
结合了语言、视觉和最近的行动的基础模型彻底改变了利用互联网规模数据来推理有用任务的能力。然而,训练具体基础模型的关键挑战之一是缺乏基于物理世界的数据。在本文中,我们提出了 AutoRT,这是一个利用现有基础模型在完全看不见的场景中以最少的人工监督来扩大操作机器人部署的系统。 AutoRT 利用视觉语言模型 VLM 进行场景理解和基础,并进一步使用大型语言模型 LLM 来提出由一组机器人执行的多样化和新颖的指令。通过利用基础模型的知识来指导数据收集,使 AutoRT 能够有效地推理自主权衡和安全性,同时显着扩大机器人学习的数据收集范围。我们演示了 AutoRT 向多个建筑物中的 20 多个机器人提出指令,并通过远程操作和自主机器人策略收集 77,000 个真实的机器人事件。

Neural deformation fields for template-based reconstruction of cortical surfaces from MRI
Authors Fabian Bongratz, Anne Marie Rickmann, Christian Wachinger
皮质表面的重建是磁共振成像MRI中大脑皮质定量分析的先决条件。现有的基于分割的方法将表面配准与表面提取分开,这在计算上效率低下并且容易失真。我们引入了 Vox2Cortex Flow V2C Flow,这是一种深度网格变形技术,可以学习从大脑模板到 MRI 扫描的皮质表面的变形场。为此,我们提出了一种几何神经网络,它以连续的方式对描述常微分方程的变形进行建模。该网络架构包括卷积层和图卷积层,这使得它可以同时处理图像和网格。 V2C Flow 不仅非常快,需要不到两秒的时间来推断所有四个皮质表面,而且还在重建过程中建立了与模板的顶点对应关系。此外,V2C Flow 是第一个联合模拟白质和软脑膜表面的皮层重建方法,从而避免它们之间的交叉。我们对内部和外部测试数据进行的综合实验表明,V2C Flow 产生的皮质表面在准确性​​方面达到了最先进的水平。

Segmentation of tibiofemoral joint tissues from knee MRI using MtRA-Unet and incorporating shape information: Data from the Osteoarthritis Initiative
Authors Akshay Daydar, Alik Pramanick, Arijit Sur, Subramani Kanagaraj
膝骨关节炎 KOA 是继颈部和背部疼痛之后第三大常见的肌肉骨骼疾病 MSD。为了监测如此严重的 MSD,通常使用膝关节磁共振成像 MRI 的自动分割算法来获取股骨、胫骨和胫股软骨的分割图。但是,在最近的工作中,这种分割只能从多级框架中实现,从而产生数据处理问题,并且需要连续的手动推理,使其无法做出快速而精确的临床诊断。为了解决这些问题,本文提出了多分辨率关注Unet MtRA Unet来自动分割股骨、胫骨和胫股软骨。拟议的工作包括新颖的多分辨率特征融合 MRFF 和形状重建 SR 损失,重点关注股骨、胫骨和胫股软骨的多上下文信息和结构解剖细节。与以前的方法不同,所提出的工作是单阶段和端到端框架,对于关键 MRI 切片,股骨的 Dice 相似系数 DSC 为 98.5,胫骨为 98.4,股骨软骨 FC 为 89.1,胫骨软骨 TC 为 86.1有助于临床医生进行KOA分级。对每个受试者分割 160 个切片的 MRI 体积的时间为 22 秒。这是最先进的最快之一。

Red Teaming Visual Language Models
Authors Mukai Li, Lei Li, Yuwei Yin, Masood Ahmed, Zhenguang Liu, Qi Liu
VLM 视觉语言模型扩展了 LLM 大型语言模型的功能,以接受多模式输入。由于已经证实 LLM 可以通过称为“红队”的特定测试用例诱导生成有害或不准确的内容,因此 VLM 在类似场景中的表现如何,特别是在文本和视觉输入相结合的情况下,仍然是一个问题。为了探讨这个问题,我们提出了一个新颖的红队数据集 RTVLM,它包含 10 个子任务,例如图像误导、多模态越狱、面部公平等,分为 4 个主要方面:忠实性、隐私性、安全性、公平性。我们的 RTVLM 是第一个在这 4 个不同方面对当前 VLM 进行基准测试的红队数据集。详细分析显示,10个著名的开源VLM都不同程度地与红队作斗争,与GPT 4V的性能差距高达31%。此外,我们简单地将红队对齐应用到 LLaVA v1.5,并使用 RTVLM 进行监督微调 SFT,这增强了模型性能,RTVLM 测试集为 10,MM Hal 为 13,并且 MM Bench 没有明显下降,超过了其他 LLaVA基于具有常规对齐数据的模型。这表明当前的开源 VLM 仍然缺乏红队协调。

PSAvatar: A Point-based Morphable Shape Model for Real-Time Head Avatar Creation with 3D Gaussian Splatting
Authors Zhongyuan Zhao, Zhenyu Bao, Qing Li, Guoping Qiu, Kanglin Liu
尽管取得了很大进展,但创建实时高保真头部头像仍然很困难,现有方法必须在速度和质量之间进行权衡。

Data-Centric Evolution in Autonomous Driving: A Comprehensive Survey of Big Data System, Data Mining, and Closed-Loop Technologies
Authors Lincan Li, Wei Shao, Wei Dong, Yijun Tian, Kaixiang Yang, Wenjie Zhang
下一代自动驾驶AD技术的愿景依赖于智能感知、预测、规划和底层控制之间的专门集成和交互。自动驾驶算法性能上限存在巨大瓶颈,学术界和工业界一致认为,突破瓶颈的关键在于以数据为中心的自动驾驶技术。最近在AD仿真、闭环模型训练、AD大数据引擎方面取得了一些宝贵的经验。然而,对于如何构建高效的以数据为中心的AD技术,实现AD算法的自我进化和更好的AD大数据积累,目前还缺乏系统的认识和深刻的理解。为了填补已确定的研究空白,本文将密切关注最先进的数据驱动自动驾驶技术,重点是自动驾驶数据集的综合分类,以里程碑代、关键特征、数据采集设置等为特征。此外,我们还从产业前沿对现有基准闭环AD大数据管道进行了系统回顾,包括闭环框架流程、关键技术和实证研究。

Two-View Topogram-Based Anatomy-Guided CT Reconstruction for Prospective Risk Minimization
Authors Chang Liu, Laura Klein, Yixing Huang, Edith Baader, Michael Lell, Marc Kachelrie , Andreas Maier
为了促进 CT 有效剂量和风险最小化过程的前瞻性估计,需要前瞻性空间剂量估计和已知的解剖结构。为此,需要一种 CT 重建方法来从尽可能少的投影(即使用地形图)重建 CT 体积,并具有尽可能正确的解剖结构。在这项工作中,提出了一种基于生成对抗网络 GAN 的优化 CT 重建模型。 GAN 经过训练,可根据前后和侧面 CT 投影重建 3D 体积。为了增强解剖结构,在训练阶段应用预先训练的器官分割网络和 3D 感知损失,以便模型可以生成器官增强 CT 体积和器官分割掩模。该方法可以重建 CT 体积,PSNR 为 26.49,RMSE 为 196.17,SSIM 为 0.64,而使用基线方法的结果为 26.21、201.55 和 0.63。在解剖结构方面,该方法有效增强了器官形状和边界,并可以直接识别相关解剖结构。我们注意到,传统的重建指标无法表明解剖结构的增强。除了这些指标之外,还通过评估器官分割性能来扩展评估。

Energy-based Automated Model Evaluation
Authors Ru Peng, Heming Zou, Haobo Wang, Yawen Zeng, Zenan Huang, Junbo Zhao
机器学习模型的传统评估协议严重依赖于带标签的、独立同分布假设的测试数据集,而这在现实世界的应用中并不常见。自动化模型评估 AutoEval 展示了这种传统工作流程的替代方案,通过在不存在真实标签的情况下形成测试性能的近端预测管道。尽管 AutoEval 框架最近取得了成功,但仍然存在过度自信问题、大量存储和计算成本。在这方面,我们提出了一种新的措施元分布能源 MDE,使 AutoEval 框架更加高效和有效。 MDE 的核心是根据与各个样本相关的信息能量建立元分布统计,然后通过基于能量的学习提供更平滑的表示。我们通过将 MDE 与分类损失联系起来,进一步提供我们的理论见解。我们提供了跨模式、数据集和不同架构主干的广泛实验,以验证 MDE 的有效性及其与先前方法相比的优越性。

Consistency Enhancement-Based Deep Multiview Clustering via Contrastive Learning
Authors Hao Yang, Hua Mao, Wai Lok Woo, Jie Chen, Xi Peng
多视图聚类 MVC 通过综合多个视图的信息,将数据样本分成有意义的聚类。此外,基于深度学习的方法在MVC场景中展示了其强大的特征学习能力。然而,在保持一致性的同时有效地概括特征表示仍然是一个棘手的问题。此外,现有的大多数基于对比学习的深度聚类方法都忽略了聚类过程中聚类表示的一致性。在本文中,我们展示了如何克服上述问题,并通过对比学习 CCEC 提出了一种基于一致增强的深度 MVC 方法。具体来说,语义连接块被合并到特征表示中以保留多个视图之间的一致信息。此外,通过谱聚类增强了聚类的表示过程,并且提高了多个视图之间的一致性。在五个数据集上进行的实验证明了我们的方法与最先进的 SOTA 方法相比的有效性和优越性。

Fast Implicit Neural Representation Image Codec in Resource-limited Devices
Authors Xiang Liu, Jiahong Chen, Bin Chen, Zimo Liu, Baoyi An, Shu Tao Xia
在增强现实设备等边缘设备上显示高质量图像对于增强用户体验至关重要。然而,这些设备通常面临功耗和计算资源的限制,使得在该领域应用许多基于深度学习的图像压缩算法具有挑战性。用于图像压缩的隐式神经表示 INR 是一项新兴技术,与尖端自动编码器模型相比,它具有两个关键优势:低计算复杂性和无参数解码。它在质量方面也优于许多传统和早期的神经压缩方法。在本研究中,我们引入了一种新的混合自回归模型 MARM,以显着减少当前 INR 编解码器的解码时间,并引入新的合成网络来提高重建质量。 MARM 包括我们提出的自回归上采样器 ARU 块,该块具有很高的计算效率,并且来自之前的工作的 ARM 可以平衡解码时间和重建质量。我们还建议使用棋盘两阶段解码策略来增强 ARU 的性能。而且,可以调整不同模块的比例,以保持质量和速度之间的平衡。综合实验表明,我们的方法在保持图像质量的同时显着提高了计算效率。

An Automated Real-Time Approach for Image Processing and Segmentation of Fluoroscopic Images and Videos Using a Single Deep Learning Network
Authors Viet Dung Nguyen, Michael T. LaCour, Richard D. Komistek
全膝关节置换术中的图像分割对于精确的术前计划和准确的植入物定位至关重要,从而改善手术结果和患者满意度。全膝关节置换术中图像分割的最大挑战包括准确描绘复杂的解剖结构、处理图像伪影和噪声,以及开发能够处理患者常见的解剖变化和病理的强大算法。在全膝关节置换术中使用机器学习进行图像分割的潜力在于其能够提高分割准确性、自动化流程并为外科医生提供实时帮助,从而改善手术计划、植入物放置和患者结果。本文提出了一种使用深度学习进行稳健且实时的全膝关节置换术图像分割的方法。在大型数据集上训练的深度学习模型在准确分割植入的股骨和胫骨方面表现出出色的性能,与地面实况相比,平均精度 mAP 达到令人印象深刻的 88.83,同时还实现了 20 帧的实时分割速度每秒 fps 。

Secure Federated Learning Approaches to Diagnosing COVID-19
Authors Rittika Adhikari, Christopher Settles
最近的大流行凸显了在医院环境中准确诊断 COVID 19 的重要性。这方面的一个主要挑战是根据胸部 X 射线将 COVID 19 与其他呼吸道疾病区分开来,再加上 HIPAA 合规性的限制限制了患者 X 射线的比较。本文介绍了一种符合 HIPAA 的模型,利用联邦学习来帮助诊断 COVID 19。联邦学习是一种分布式机器学习方法,允许使用本地数据样本跨多个分散设备进行算法训练,而无需数据共享。我们的模型推进了之前在胸部 X 射线诊断模型方面的努力。我们研究了该领域已建立的竞争中的领先模型,并开发了我们自己的模型,以便对特定的医院数据有效。考虑到模型在联邦学习环境中的运行,我们探讨了有偏差的数据更新对模型性能的潜在影响。

Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation
Authors Jiachen Li, Chuanbo Hua, Hengbo Ma, Jinkyoo Park, Victoria Dax, Mykel J. Kochenderfer
社交机器人导航可以在日常生活的各种环境中发挥作用,但需要安全的人机交互和高效的轨迹规划。虽然成对关系建模已在多智能体交互系统中得到广泛研究,但捕获更大规模的群体活动的能力是有限的。在本文中,我们提出了一种系统的关系推理方法,对底层动态演化的关系结构进行显式推理,并证明了其对于多智能体轨迹预测和社交机器人导航的有效性。除了节点对(即代理)之间的边之外,我们还建议推断自适应连接多个节点的超边,以无监督的方式实现分组推理。我们的方法推断动态演化的关系图和超图来捕获关系的演化,轨迹预测器利用关系演化来生成未来状态。同时,我们提出对学习关系的尖锐性和稀疏性以及关系演化的平滑性进行正则化,这证明可以提高训练稳定性和模型性能。所提出的方法在综合人群模拟和现实世界基准数据集上得到了验证。实验表明,该方法推断出合理的关系并实现了最先进的预测性能。此外,我们提出了一个用于社交机器人导航的深度强化学习 DRL 框架,它系统地结合了关系推理和轨迹预测。

Automatic Recognition of Learning Resource Category in a Digital Library
Authors Soumya Banerjee, Debarshi Kumar Sanyal, Samiran Chattopadhyay, Plaban Kumar Bhowmick, Partha Pratim Das
数字图书馆经常面临处理大量不同类型文档的挑战。手动收集和标记元数据可能是一项耗时且容易出错的任务。为了解决这个问题,我们的目标是为数字图书馆开发一个自动元数据提取器。在这项工作中,我们介绍了专为文档图像分类而设计的异构学习资源 HLR 数据集。该方法涉及将单个学习资源分解为组成文档图像表。然后通过 OCR 工具处理这些图像以提取文本表示。采用最先进的分类器对文档图像及其文本内容进行分类。

Improving Urban Flood Prediction using LSTM-DeepLabv3+ and Bayesian Optimization with Spatiotemporal feature fusion
Authors Zuxiang Situ, Qi Wang, Shuai Teng, Wanen Feng, Gongfa Chen, Qianqian Zhou, Guangtao Fu
与传统方法相比,深度学习模型由于其卓越的准确性和效率而在洪水预测中变得越来越受欢迎。然而,当前的机器学习方法通​​常依赖于单独的空间或时间特征分析,并且对输入数据的类型、数量和维度有限制。本研究提出了一种用于城市洪水预测的 CNN RNN 混合特征融合建模方法,该方法综合了 CNN 在处理空间特征和 RNN 在分析不同维度的时间序列方面的优势。这种方法可以进行静态和动态洪水预测。应用贝叶斯优化来识别七个最有影响力的洪水驱动因素并确定最佳组合策略。通过组合四个 CNN FCN、UNet、SegNet、DeepLabv3 和三个 RNN LSTM、BiLSTM、GRU ,最佳混合模型被确定为 LSTM DeepLabv3 。该模型在不同降雨输入条件下取得了最高的预测精度MAE、RMSE、NSE和KGE分别为0.007、0.025、0.973和0.755。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

  • 15
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值