【AI视野·今日CV 计算机视觉论文速览 第302期】Tue, 5 Mar 2024

379 篇文章 70 订阅
286 篇文章 54 订阅

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 5 Mar 2024
Totally 177 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Brand Visibility in Packaging: A Deep Learning Approach for Logo Detection, Saliency-Map Prediction, and Logo Placement Analysis
Authors Alireza Hosseini, Kiana Hooshanfar, Pouria Omrani, Reza Toosi, Ramin Toosi, Zahra Ebrahimian, Mohammad Ali Akhaee
在竞争激烈的产品营销领域,包装上品牌标志的可见度对于塑造消费者认知起着至关重要的作用,直接影响产品的成功。本文介绍了一个综合框架来衡量品牌标志对包装设计的关注度。所提出的方法包括三个步骤。第一步利用 YOLOv8 在重要数据集 FoodLogoDet 1500 和 LogoDet 3K 中进行精确的徽标检测。第二步涉及使用针对包装环境量身定制的新颖显着性预测模型来对用户的视觉注意力进行建模。所提出的显着性模型将视觉元素与文本图结合起来,采用基于变压器的架构来预测用户注意力图。第三步,通过将徽标检测与显着图生成相结合,该框架提供了全面的品牌关注度得分。所提出方法的有效性是逐个模块评估的,确保对每个组件进行彻底评估。将徽标检测和显着图预测与最先进的模型进行比较,显示了所提出方法的优越性。为了调查所提出的品牌注意力评分的稳健性,我们收集了一个独特的数据集来检验之前与品牌知名度相关的心理物理学假设。结果表明,品牌关注度得分与之前的所有研究结果一致。此外,我们引入了七个新假设来检查位置、方向、人物存在和其他视觉元素对品牌注意力的影响。

UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control
Authors Xuweiyi Chen, Tian Xia, Sihan Xu
视频扩散模型是为视频生成而开发的,通常集成文本和图像调节以增强对生成内容的控制。尽管取得了进展,但确保跨框架的一致性仍然是一个挑战,特别是在使用文本提示作为控制条件时。为了解决这个问题,我们引入了 UniCtrl,这是一种新颖的即插即用方法,普遍适用于提高文本到视频模型生成的视频的时空一致性和运动多样性,而无需额外的训练。 UniCtrl通过跨帧自注意力控制确保不同帧之间的语义一致性,同时通过运动注入和时空同步增强运动质量和时空一致性。

RegionGPT: Towards Region Understanding Vision Language Model
Authors Qiushan Guo, Shalini De Mello, Hongxu Yin, Wonmin Byeon, Ka Chun Cheung, Yizhou Yu, Ping Luo, Sifei Liu
通过将大型语言模型 LLM 与图像文本对集成,视觉语言模型 VLM 经历了快速的进步,但由于视觉编码器的空间意识有限,以及使用缺乏详细信息的粗粒度训练数据,它们在详细的区域视觉理解方面遇到了困难。 、区域特定字幕。为了解决这个问题,我们引入了 RegionGPT 简称 RGPT ,这是一种专为复杂区域级字幕和理解而设计的新颖框架。 RGPT 通过对 VLM 中现有视觉编码器进行简单而有效的修改,增强了区域表示的空间意识。我们通过在训练和推理阶段集成任务引导指令提示,进一步提高需要特定输出范围的任务的性能,同时保持模型对通用任务的多功能性。此外,我们开发了一个自动区域标题数据生成管道,通过详细的区域级别标题丰富了训练集。

Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training
Authors David Wan, Jaemin Cho, Elias Stengel Eskin, Mohit Bansal
突出显示图像中特别相关的区域可以通过引导模型更密切地关注这些感兴趣的区域来提高视觉语言模型 VLM 在各种视觉语言 VL 任务上的性能。例如,可以为 VLM 提供视觉提示,其中边界框等视觉标记描绘出关键图像区域。然而,当前可以结合视觉引导的 VLM 要么是专有的且昂贵的,要么需要对包含视觉提示的精选数据进行昂贵的培训。我们引入了 Contrastive Region Guidance CRG,这是一种无需培训的引导方法,使开源 VLM 能够响应视觉提示。 CRG 对比有视觉提示和没有视觉提示时产生的模型输出,剔除模型在没有产生正确答案所需信息(即模型的先验)的情况下回答时所揭示的偏差。 CRG 在各种 VL 任务中实现了实质性改进当提供区域注释时,CRG 在 ViP Bench 上将绝对准确度提高了 11.1,ViP Bench 是六种不同的基于区域的任务的集合,例如识别、数学和对象关系推理。我们还展示了 CRG 对空间推理的适用性,在 What sUp 上有 10 项改进,以及在 SugarCrepe 的两个具有挑战性的分割上将准确性提高了 11.5 和 7.5 的组合泛化,以及生成图像的图像文本对齐,我们在这方面提高了最多SeeTRUE 上的 8.4 AUROC 和 6.8 F1 点。当参考区域不存在时,CRG 允许我们在参考表达理解和短语基础基准(如 RefCOCO g 和 Flickr30K Entities)中对建议区域进行重新排名,平均准确度提高 3.2。

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures
Authors Yuchen Duan, Weiyun Wang, Zhe Chen, Xizhou Zhu, Lewei Lu, Tong Lu, Yu Qiao, Hongsheng Li, Jifeng Dai, Wenhai Wang
Transformer 彻底改变了计算机视觉和自然语言处理,但其高计算复杂性限制了其在高分辨率图像处理和长上下文分析中的应用。本文介绍了 Vision RWKV VRWKV ,该模型改编自 NLP 领域使用的 RWKV 模型,并针对视觉任务进行了必要的修改。与 Vision Transformer ViT 类似,我们的模型旨在有效处理稀疏输入并展示强大的全局处理能力,同时还可以有效扩展,适应大规模参数和广泛的数据集。其独特的优势在于降低了空间聚合复杂性,这使得它非常擅长无缝处理高分辨率图像,从而消除了窗口操作的必要性。我们对图像分类的评估表明,VRWKV 的分类性能与 ViT 的分类性能相当,但速度明显更快,内存使用量更低。在密集的预测任务中,它的性能优于基于窗口的模型,保持了相当的速度。这些结果凸显了 VRWKV 作为视觉感知任务的更有效替代方案的潜力。

Beyond Specialization: Assessing the Capabilities of MLLMs in Age and Gender Estimation
Authors Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh
多模态大型语言模型 MLLM 最近获得了极大的欢迎。 ChatGPT 4V 和 Gemini 等强大的商业模型以及 LLaVA 等开源模型本质上都是通用模型,可用于解决各种任务,包括计算机视觉领域的任务。这些神经网络拥有很强的常识和推理能力,事实证明它们甚至能够完成未经专门训练的任务。我们将迄今为止最强大的 MLLM 在年龄和性别估计专门任务中的功能与我们最先进的专业模型 MiVOLO 进行了比较。我们还更新了 MiVOLO 并在本文中提供了详细信息和新指标。这种比较产生了一些有趣的结果,并深入了解了参与模型的优缺点。此外,我们尝试了各种方法来针对此特定任务微调 ShareGPT4V 模型,旨在在此特定挑战中取得最先进的结果。

DaReNeRF: Direction-aware Representation for Dynamic Scenes
Authors Ange Lou, Benjamin Planche, Zhongpai Gao, Yamin Li, Tianyu Luan, Hao Ding, Terrence Chen, Jack Noble, Ziyan Wu
为了解决建模和重新渲染动态场景的复杂挑战,最新的方法试图使用基于平面的显式表示来简化这些复杂性,克服与神经辐射场 NeRF 和隐式表示等方法相关的训练时间缓慢的问题。然而,事实证明,将 4D 动态场景直接分解为多个基于 2D 平面的表示不足以重新渲染具有复杂运动的高保真度场景。作为回应,我们提出了一种新颖的方向感知表示 DaRe 方法,可以从六个不同方向捕获场景动态。该学习表示经历逆双树复小波变换 DTCWT 以恢复基于平面的信息。 DaReNeRF 通过融合来自这些恢复平面的向量来计算每个时空点的特征。将 DaReNeRF 与用于颜色回归的微型 MLP 相结合,并在训练中利用体积渲染,在复杂动态场景的新颖视图合成中产生最先进的性能。值得注意的是,为了解决六个实数和六个虚数方向感知小波系数引入的冗余,我们引入了可训练的掩蔽方法,在不显着性能下降的情况下减轻存储问题。

Non-autoregressive Sequence-to-Sequence Vision-Language Models
Authors Kunyu Shi, Qi Dong, Luis Goncalves, Zhuowen Tu, Stefano Soatto
序列到序列视觉语言模型显示出了希望,但由于其生成预测的自回归方式,其适用性受到推理延迟的限制。我们提出了一种并行解码序列到序列视觉语言模型,使用查询 CTC 损失进行训练,从而边缘化解码器中的多个推理路径。这使我们能够对令牌的联合分布进行建模,而不是像自回归模型那样限制于条件分布。

3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors
Authors Fangzhou Hong, Jiaxiang Tang, Ziang Cao, Min Shi, Tong Wu, Zhaoxi Chen, Tengfei Wang, Liang Pan, Dahua Lin, Ziwei Liu
我们提出了一个两阶段文本到 3D 生成系统,即 3DTopia,它使用混合扩散先验在 5 分钟内生成高质量的通用 3D 资产。第一阶段从直接从 3D 数据学习的 3D 扩散先验中进行采样。具体来说,它由文本条件三平面潜在扩散模型提供支持,该模型可以快速生成粗糙的 3D 样本以进行快速原型制作。第二阶段利用 2D 扩散先验进一步细化第一阶段的粗糙 3D 模型的纹理。细化包括潜在的和像素空间的优化,以生成高质量的纹理。为了促进所提出系统的训练,我们通过结合视觉语言模型和大型语言模型的力量,对最大的开源 3D 数据集 Objaverse 进行清理和描述。定性和定量地报告实验结果,以显示所提出系统的性能。

DragTex: Generative Point-Based Texture Editing on 3D Mesh
Authors Yudi Zhang, Qi Xu, Lei Zhang
使用生成人工智能创建 3D 纹理网格最近引起了广泛关注。虽然现有方法支持基于文本的生成纹理生成或 3D 网格编辑,但它们通常难以通过更直观的交互来精确控制纹理图像的像素。虽然可以使用拖动交互来生成编辑 2D 图像,但将此类方法直接应用于 3D 网格纹理仍然会导致多个视图之间缺乏局部一致性、错误累积和训练时间长等问题。为了解决这些挑战,我们提出了一种基于生成点的 3D 网格纹理编辑方法,称为 DragTex。该方法利用扩散模型来混合不同视图之间变形轮廓附近区域中局部不一致的纹理,从而实现局部一致的纹理编辑。此外,我们微调解码器以减少非拖动区域的重建错误,从而减轻整体错误累积。此外,我们使用多视图图像来训练 LoRA,而不是单独训练每个视图,这显着缩短了训练时间。

Perceptive self-supervised learning network for noisy image watermark removal
Authors Chunwei Tian, Menghua Zheng, Bo Li, Yanning Zhang, Shichao Zhang, David Zhang
流行的方法通常以监督的方式使用退化模型来学习水印去除模型。然而,现实世界中参考图像确实很难获得,而且相机采集的图像也存在噪声。为了克服这些缺点,我们在本文中提出了一种用于噪声图像水印去除的感知自监督学习网络 PSLNet。 PSLNet 依靠并行网络来去除噪声和水印。上层网络采用任务分解思想,依次去除噪声和水印。下层网络利用退化模型思想同时去除噪声和水印。具体地,以自监督的方式获得所提及的成对水印图像,并以监督的方式获得成对的噪声图像,即噪声图像和参考图像。为了增强获得的图像的清晰度,通过两个子网络交互并融合获得的干净图像,从结构信息和像素增强方面提高图像水印去除的效果。考虑到纹理信息,混合损失使用获得的图像和特征来实现噪声图像水印去除的鲁棒模型。综合实验表明,与流行的卷积神经网络 CNN 相比,我们提出的方法在去除噪声图像水印方面非常有效。

TripoSR: Fast 3D Object Reconstruction from a Single Image
Authors Dmitry Tochilkin, David Pankratz, Zexiang Liu, Zixuan Huang, Adam Letts, Yangguang Li, Ding Liang, Christian Laforte, Varun Jampani, Yan Pei Cao
本技术报告介绍了 TripoSR,这是一种利用 Transformer 架构进行快速前馈 3D 生成的 3D 重建模型,可在 0.5 秒内从单个图像生成 3D 网格。 TripoSR 以 LRM 网络架构为基础,集成了数据处理、模型设计和训练技术方面的重大改进。对公共数据集的评估表明,与其他开源替代品相比,TripoSR 在数量和质量上都表现出卓越的性能。

MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection
Authors Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu, Bin Liu, Jieping Ye, Nenghai Yu
得益于基础模型的发展,红外小目标检测ISTD算法取得了重大进展。具体来说,卷积网络与变压器相结合的结构可以很好地提取局部和全局特征。同时,它们也继承了基本模型的缺陷,例如变压器的二次计算复杂性,这影响了效率。受到最近用于长距离建模的线性复杂性基本模型 Mamba 的启发,我们在本文中探索了这种状态空间模型在 ISTD 中的潜力。然而,直接应用是不合适的,因为对于检测小目标至关重要的局部特征无法被充分利用。相反,我们在 Mamba MiM ISTD 结构中定制了 Mamba,以实现高效的 ISTD。例如,我们将局部补丁视为视觉句子,并进一步将它们分解为子补丁作为视觉单词,以进一步探索局部性。给定视觉句子中每个单词之间的交互将以可忽略的计算成本进行计算。通过聚合单词和句子特征,可以显着增强 MiM ISTD 的表示能力。在 NUAA SIRST 和 IRSTD 1k 上的实验证明了我们方法的卓越准确性和效率。

Self-Supervised Facial Representation Learning with Facial Region Awareness
Authors Zheng Gao, Ioannis Patras
自监督预训练已被证明在学习有利于各种视觉任务的可转移表示方面是有效的。本文提出了这个问题:自监督预训练能否学习各种面部分析任务的一般面部表征?最近为实现这一目标所做的努力仅限于将每个面部图像视为一个整体,即在图像级别学习一致的面部表征,这忽略了一致性局部面部表征,即眼睛、鼻子等面部区域。在这项工作中,我们首次尝试提出一种新颖的自监督面部表征学习框架来学习一致的全局和局部面部表征,即面部区域感知 FRA。具体来说,我们通过匹配视图中的局部面部表示来明确强制面部区域的一致性,这些视图是通过学习的突出面部区域的热图提取的。受监督语义分割中掩模预测的启发,我们通过特征图的每像素投影与从可学习位置嵌入计算出的面部掩模嵌入之间的余弦相似度来获得热图,利用注意力机制全局查找面部图像中的面部区域。为了学习这样的热图,我们通过将特征图中的像素特征分配给它们,将面部掩模嵌入的学习公式化为深度聚类问题。

Point2Building: Reconstructing Buildings from Airborne LiDAR Point Clouds
Authors Yujia Liu, Anton Obukhov, Jan Dirk Wegner, Konrad Schindler
我们提出了一种基于学习的方法,从机载 LiDAR 点云将建筑物重建为 3D 多边形网格。利用机载 LiDAR 进行 3D 建筑重建之所以困难,是因为建筑设计的多样性,尤其是屋顶形状、整个场景中点密度低且变化多端,以及由于植被遮挡或视角的影响,建筑立面通常覆盖不完整。传感器。为了应对形状的多样性以及不均匀和不完整的对象覆盖,我们引入了一种生成模型,可以直接从输入点云预测 3D 多边形网格。我们的自回归模型称为 Point2Building,通过生成顶点和面序列来迭代构建网格。这种方法使我们的模型能够灵活地适应不同的几何形状和建筑结构。与许多严重依赖于详尽平面检测等预处理步骤的现有方法不同,我们的模型直接从点云数据中学习,从而减少错误传播并提高重建的保真度。我们在苏黎世、柏林和塔林的机载 LiDAR 数据集合上进行了实验验证我们的方法。

UB-FineNet: Urban Building Fine-grained Classification Network for Open-access Satellite Images
Authors Zhiyi He, Wei Yao, Jie Shao, Puzuo Wang
利用卫星遥感图像对城市规模建筑进行精细分类是一个重要的研究领域,对城市规划、基础设施发展和人口分布分析具有重要意义。然而,由于从高空星载平台获取的低分辨率俯视图像以及细粒度城市建筑类别的长尾样本分布,导致严重的类别不平衡问题,该任务面临巨大挑战。为了解决这些问题,我们提出了一种深度网络方法,使用开放获取卫星图像对城市建筑进行细粒度分类。首次引入基于去噪扩散概率模型DDPM的超分辨率方法来增强卫星图像的空间分辨率,这得益于领域自适应知识蒸馏。然后,提出了一种具有类别信息平衡模块 CIBM 和对比监督 CS 技术的新细粒度分类网络,以缓解类别不平衡问题并提高分类的鲁棒性和准确性。在具有 11 种精细建筑类型的香港数据集上进行的实验显示出有希望的分类结果,平均 Top 1 准确度为 60.45,与基于街景图像的方法相当。广泛的消融研究表明,与基线方法相比,CIBM 和 CS 将 Top 1 准确率分别提高了 2.6 和 3.5。这两个模块都可以轻松插入到其他分类网络中,并且已经实现了类似的增强。我们的研究仅使用开放卫星图像,为具有挑战性的大城市场景中的建筑物精细分类提供了实用的解决方案,为城市分析领域做出了贡献。

LOCR: Location-Guided Transformer for Optical Character Recognition
Authors Yu Sun, Dongzhan Zhou, Chen Lin, Conghui He, Wanli Ouyang, Han Sen Zhong
学术文档充满了文本、方程式、表格和图形,需要全面理解才能准确进行光学字符识别 OCR。

A New Perspective on Smiling and Laughter Detection: Intensity Levels Matter
Authors Hugo Bohy, Kevin El Haddad, Thierry Dutoit
在过去的十年中,微笑和大笑检测系统引起了很多关注,为人类代理交互系统的改进做出了贡献。但很少有人认为这些表达是不同的,尽管之前的工作没有明确证明它们属于同一类别。在这项工作中,我们提出了一种基于深度学习的多模态微笑和大笑分类系统,将它们视为两个不同的实体。我们比较基于音频和视觉的模型以及融合方法的使用。我们表明,正如预期的那样,融合可以更好地概括未见过的数据。我们还对这些模型在微笑和大笑强度级别上的行为进行了深入分析。对强度水平的分析表明,微笑和大笑之间的关系可能并不像二元关系那么简单,甚至不会将它们归为一个类别,因此,在处理它们时应该采取更复杂的方法。

Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations
Authors Sangmin Lee, Bolin Lai, Fiona Ryan, Bikram Boote, James M. Rehg
了解涉及言语和非言语线索的社交互动对于有效解释社交情境至关重要。然而,大多数关于多模式社交线索的先前研究主要集中在单人行为或依赖于与多方环境中的话语并不紧密一致的整体视觉表征。它们在模拟多方交互的复杂动态方面受到限制。在本文中,我们引入了三个新的具有挑战性的任务来模拟多人说话目标识别、代词共指解析和提到的玩家预测之间的细粒度动态。我们提供广泛的数据注释来应对社交演绎游戏设置中的这些新挑战。此外,我们提出了一种新颖的多模态基线,通过将视觉特征与其相应的话语同步来利用密集对齐的语言视觉表示。这有助于同时捕捉与社会推理相关的言语和非言语线索。实验证明了所提出的方法在社交交互建模中具有密集对齐的多模态表示的有效性。

ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models
Authors Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu
文本到图像模型(例如稳定扩散)和相应的个性化技术(例如 DreamBooth 和 LoRA)的最新进展使个人能够生成高质量和富有想象力的图像。然而,在生成分辨率超出训练范围的图像时,它们经常受到限制。为了克服这个限制,我们提出了分辨率适配器 ResAdapter ,这是一个域一致的适配器,专为扩散模型而设计,用于生成具有不受限制的分辨率和长宽比的图像。与其他通过复杂的后处理操作处理静态分辨率图像的多分辨率生成方法不同,ResAdapter 直接生成动态分辨率的图像。特别是,在深入了解纯分辨率先验之后,ResAdapter 在通用数据集上进行训练,利用个性化扩散模型生成无分辨率图像,同时保留其原始风格域。综合实验表明,仅0.5M的ResAdapter就可以处理任意扩散模型的灵活分辨率的图像。更多扩展实验表明,ResAdapter 与其他模块(例如 ControlNet、IP Adapter 和 LCM LoRA)兼容,可用于生成各种分辨率的图像,并且可以集成到其他多分辨率模型(例如 ElasticDiffusion)中,以有效生成更高分辨率的图像。

VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT
Authors Yifang Xu, Yunzhuo Sun, Zien Xie, Benxiang Zhai, Sidan Du
视频时间基础 VTG 旨在基于语言查询从未修剪的视频中定位特定的时间片段。大多数现有的 VTG 模型都是在大量带注释的视频文本对上进行训练的,这一过程不仅会引入查询中的人类偏见,还会产生大量的计算成本。为了应对这些挑战,我们提出了 VTG GPT,这是一种基于 GPT 的零样本 VTG 方法,无需训练或微调。为了减少原始查询中的偏见,我们使用Baichuan2来生成去偏见查询。为了减少视频中的冗余信息,我们应用 MiniGPT v2 将视觉内容转换为更精确的字幕。最后,我们设计了提案生成器和后处理,以根据去偏查询和图像标题生成准确的片段。大量实验表明,VTG GPT 在零样本设置下显着优于 SOTA 方法,并超越无监督方法。更值得注意的是,它实现了与监督方法相当的竞争性能。

DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction
Authors Weiyi Lv, Yuhang Huang, Ning Zhang, Ruei Sung Lin, Mei Han, Dan Zeng
在多对象跟踪中,对象经常表现出非线性的加速和减速运动,并且方向变化不规则。通过检测 TBD 和卡尔曼滤波器运动预测进行跟踪在行人占主导地位的场景中效果很好,但在多个对象同时执行非线性和多样化运动的复杂情况下效果不佳。为了解决复杂的非线性运动,我们提出了一种基于实时扩散的 MOT 方法,称为 DiffMOT。具体来说,对于运动预测器组件,我们提出了一种新颖的基于解耦扩散的运动预测器 D MP 。它对数据呈现的各种运动的整个分布进行建模。它还根据个体的历史运动信息来预测个体对象的运动。此外,它还以更少的采样步骤优化了扩散过程。作为 MOT 跟踪器,DiffMOT 的实时速度为 22.7FPS,并且在 HOTA 指标方面也优于 DanceTrack 和 SportsMOT 数据集上的最新技术,分别为 63.4 和 76.2。

Modality-Aware and Shift Mixer for Multi-modal Brain Tumor Segmentation
Authors Zhongzhen Huang, Linda Wei, Shaoting Zhang, Xiaofan Zhang
组合多模态图像有利于探索计算机视觉中的各种信息,尤其是在医学领域。作为临床诊断的重要组成部分,多模态脑肿瘤分割旨在描绘涉及多种模态的恶性实体。尽管现有方法在任务中表现出了显着的性能,但这些方法中跨尺度的信息交换以及空间和模态的高级表示融合受到限制。在本文中,我们提出了一种新颖的模态感知和移位混合器,它集成了多模态图像的模态内和模态间依赖性,以实现有效且稳健的脑肿瘤分割。具体来说,我们根据神经影像学研究引入了模态感知模块,用于对低水平的特定模态对关系进行建模,并开发了具有特定马赛克模式的模态转换模块,以通过自注意力探索高水平跨模态的复杂关系。通过实验,我们在公共脑肿瘤分割 BraTS 2021 分割数据集上的表现优于之前最先进的方法。

HyperPredict: Estimating Hyperparameter Effects for Instance-Specific Regularization in Deformable Image Registration
Authors Aisha L. Shuaibu, Ivor J. A. Simpson
医学图像配准方法推断通过最大化图像相似性度量来对齐成对图像组的几何变换。这个问题是不适定的,因为几个解决方案可能具有相同的可能性,而且纯粹针对图像相似性进行优化可能会产生令人难以置信的变换。由于这些原因,正则化条款对于获得有意义的注册结果至关重要。然而,这需要引入至少一个超参数(通常称为 lambda ),作为损失项之间的权衡。在某些情况下,估计变换的质量很大程度上取决于超参数的选择,并且根据数据的特征可能需要不同的选择。分析这些超参数的影响需要标记数据,而这些数据在测试时通常不可用。在本文中,我们提出了一种评估超参数影响并随后为给定图像对选择最佳值的方法。我们称之为 HyperPredict 的方法实现了一个多层感知器,该感知器通过预测生成的分割重叠和变形平滑度的度量来学习选择特定超参数来注册图像对的效果。这种方法使我们能够在测试时选择最佳的超参数,而无需标记数据,从而无需采用一刀切的交叉验证方法。此外,用于定义最佳超参数的标准在训练后是灵活的,使我们能够有效地选择特定属性。我们使用最新的深度学习方法 cLapIRN 和算法方法 Niftyreg 在 OASIS 大脑 MR 数据集上评估我们提出的方法。

Depth-Guided Robust and Fast Point Cloud Fusion NeRF for Sparse Input Views
Authors Shuai Guo, Qiuwen Wang, Yijie Gao, Rong Xie, Li Song
具有稀疏输入视图的新颖视图合成对于 AR VR 和自动驾驶等现实世界应用非常重要。最近的方法已将深度信息集成到 NeRF 中以进行稀疏输入合成,利用深度先验进行几何和空间理解。然而,大多数现有工作往往会忽视深度图中的不准确性,并且时间效率较低。为了解决这些问题,我们提出了一种用于稀疏输入的深度引导的稳健且快速的点云融合 NeRF。我们将辐射场视为明确的体素特征网格。为每个输入视图构建点云,使用矩阵和向量在体素网格内进行表征。我们累积每个输入视图的点云来构建整个场景的融合点云。每个体素通过参考整个场景的点云来确定其密度和外观。通过点云融合和体素网格微调,深度值的不准确被细化或被其他视图的不准确取代。此外,我们的方法可以通过有效的向量矩阵分解实现更快的重建和更大的紧凑性。

Multi-Spectral Remote Sensing Image Retrieval Using Geospatial Foundation Models
Authors Benedikt Blumenstiel, Viktoria Moor, Romeo Kienzler, Thomas Brunschwiler
图像检索可以对大量卫星图像进行高效搜索,并返回相似的图像进行查询。深度学习模型可以跨各种语义概念识别图像,而无需注释。这项工作建议使用像 Prithvi 这样的地理空间基础模型进行遥感图像检索,具有多种优点:模型编码多光谱卫星数据,并且无需进一步微调即可概括。我们在检索任务中引入了两个数据集,并观察到 ​​Prithvi 处理六个波段的强大性能,并在 BigEarthNet 43 上实现了 97.62 的平均精度,在 ForestNet 12 上实现了 44.51 的平均精度,优于其他基于 RGB 的模型。此外,我们评估了三种具有二值化嵌入的压缩方法,平衡了检索速度和准确性。它们与更短的哈希码的检索速度相匹配,同时保持与浮点嵌入相同的精度,但压缩率为 32 倍。

A Generative Approach for Wikipedia-Scale Visual Entity Recognition
Authors Mathilde Caron, Ahmet Iscen, Alireza Fathi, Cordelia Schmid
在本文中,我们解决了网络规模的视觉实体识别问题,特别是将给定的查询图像映射到维基百科中 600 万个现有实体之一的任务。解决此类规模问题的一种方法是使用双编码器模型,例如 CLIP,其中所有实体名称和查询图像都嵌入到统一空间中,为近似 k NN 搜索铺平了道路。或者,也可以重新利用字幕模型来直接生成给定图像的实体名称。相比之下,我们引入了一种新颖的生成实体识别 GER 框架,该框架给定输入图像,学习自动回归解码识别目标实体的语义和判别代码。我们的实验证明了这种 GER 范例的有效性,展示了在具有挑战性的 OVEN 基准测试中最先进的性能。

Scalable Vision-Based 3D Object Detection and Monocular Depth Estimation for Autonomous Driving
Authors Yuxuan Liu
本论文对基于视觉的 3D 感知技术的进步做出了多方面的贡献。在第一部分中,本文介绍了单目和立体 3D 对象检测算法的结构增强。通过将地面参考几何先验集成到单目检测模型中,这项研究在单目 3D 检测的基准评估中实现了无与伦比的准确性。同时,这项工作通过结合从单目网络收集的见解和推理结构来完善立体 3D 检测范例,从而提高立体检测系统的运行效率。第二部分致力于数据驱动策略及其在 3D 视觉检测中的实际应用。引入了一种新颖的训练方案,该方案合并了用 2D 或 3D 标签注释的数据集。这种方法不仅通过利用大幅扩展的数据集来增强检测模型,而且还有助于在仅容易获得 2D 注释的现实场景中经济地部署模型。最后,论文提出了一种专为自动驾驶环境中无监督深度估计而定制的创新流程。广泛的实证分析证实了这一新提出的管道的稳健性和有效性。

Physics-Informed Learning for Time-Resolved Angiographic Contrast Agent Concentration Reconstruction
Authors Noah Maul, Annette Birkhold, Fabian Wagner, Mareike Thies, Maximilian Rohleder, Philipp Berg, Markus Kowarschik, Andreas Maier
三维数字减影血管造影 3D DSA 是一种成熟的基于 X 射线的血管解剖可视化技术。最近,四维 DSA 4D DSA 重建算法已被开发出来,可以通过体积的时间序列实现体积对比流动力学的可视化。 。该重建问题的不适定主要是由于投影方向上的血管重叠和几何血管透视缩短,导致记录的投影图像中的信息丢失。然而,可以利用有关基础流体动力学的知识来限制解决方案空间。在我们的工作中,我们隐式地将这些信息包含在基于神经网络的模型中,该模型是在基于图像的血流模拟数据集上进行训练的。该模型预测脉管系统每个中心线点随时间的空间平均造影剂浓度,从而降低总体计算需求。经过训练的网络能够重建相对造影剂浓度,平均绝对误差为 0.02 pm 0.02 ,平均绝对百分比误差为 5.31 pm 9.25 。此外,该网络对于不同程度的船舶重叠和船舶缩短具有鲁棒性。

Leveraging Anchor-based LiDAR 3D Object Detection via Point Assisted Sample Selection
Authors Shitao Chen, Haolin Zhang, Nanning Zheng
基于LiDAR点云和先验锚框的3D物体检测是自动驾驶环境感知和理解的关键技术。然而,现有方法中一个被忽视的实际问题是基于 Union IoU box 的框交集的训练样本分配的模糊性。这个问题阻碍了基于锚点的 LiDAR 3D 物体检测器性能的进一步增强。为了应对这一挑战,本文引入了一种新的训练样本选择方法,该方法利用点云分布进行锚点样本质量测量,称为点辅助样本选择 PASS 。该方法已经在两个广泛使用的数据集上经过了严格的评估。实验结果表明,PASS 的应用将基于锚点的 LiDAR 3D 物体检测器的平均精度提升到了新的技术水平,从而证明了所提出方法的有效性。

Explicit Motion Handling and Interactive Prompting for Video Camouflaged Object Detection
Authors Xin Zhang, Tao Xiao, Gepeng Ji, Xuan Wu, Keren Fu, Qijun Zhao
伪装对区分静态目标提出了挑战,而目标的任何移动都可以打破这种伪装。现有的视频伪装目标检测 VCOD 方法将噪声运动估计作为输入或隐式运动模型,限制了复杂动态场景中的检测性能。在本文中,我们提出了一种新颖的 VCOD 显式运动处理和交互式提示框架,称为 EMIP,它使用冻结的预训练光流基本模型显式处理运动提示。 EMIP 的特点是采用双流架构,可同时进行伪装分割和光流估计。受新兴视觉提示学习的启发,双流之间的交互以交互式提示方式实现。两个可学习模块,即伪装馈线和运动收集器,被设计为分别将分割合并到运动和将运动合并到分割提示,并增强两个流的输出。馈送到运动流的提示是通过以自监督方式监督光流来学习的。此外,我们还表明,长期历史信息也可以作为提示纳入 EMIP 中,并获得具有时间一致性的更稳健的结果。实验结果表明,我们的 EMIP 在流行的 VCOD 基准测试中取得了新的最先进记录。

Enhancing Information Maximization with Distance-Aware Contrastive Learning for Source-Free Cross-Domain Few-Shot Learning
Authors Huali Xu, Li Liu, Shuaifeng Zhi, Shaojing Fu, Zhuo Su, Ming Ming Cheng, Yongxiang Liu
现有的跨域少样本学习 CDFSL 方法需要访问源域数据以在预训练阶段训练模型。然而,由于对数据隐私的日益关注以及降低数据传输和训练​​成本的愿望,有必要开发一种无需访问源数据的CDFSL解决方案。为此,本文探讨了无源 CDFSL SF CDFSL 问题,其中通过使用现有的预训练模型而不是用源数据训练模型来解决 CDFSL,从而避免访问源数据。本文提出了一种增强信息最大化与距离感知对比学习 IM DCL 方法来应对这些挑战。首先,我们介绍了学习查询集的转导机制。其次,探索信息最大化IM,将目标样本映射到个体确定性和全局多样性预测,帮助源模型更好地拟合目标数据分布。然而,IM 无法学习目标任务的决策边界。这促使我们引入一种称为距离感知对比学习 DCL 的新颖方法,其中我们将整个特征集视为正集和负集,类似于薛定谔的对偶状态概念。我们没有严格区分正集和负集,而是采用特征之间的加权距离计算来为整个特征集建立正集和负集的软分类。此外,我们通过结合对象特征及其相应的正负集之间的对比约束来解决与 IM 相关的问题。

Fourier-basis Functions to Bridge Augmentation Gap: Rethinking Frequency Augmentation in Image Classification
Authors Puru Vaish, Shunxin Wang, Nicola Strisciuglio
由于训练期间未考虑到输入的意外变化,计算机视觉模型在部署到现实场景中时通常会出现性能下降。数据增强通常用于解决这个问题,因为它的目的是增加数据多样性并减少训练数据和测试数据之间的分布差距。然而,常见的视觉增强可能无法保证计算机视觉模型的广泛鲁棒性。在本文中,我们提出了辅助傅立叶基增强 AFA,这是一种针对频域增强并填补视觉增强留下的增强间隙的补充技术。我们在简单而高效的对抗环境中展示了通过傅立叶基加性噪声进行增强的实用性。我们的结果表明,AFA 有益于模型针对常见损坏的鲁棒性、OOD 泛化以及模型针对不断增加的扰动的性能一致性,而对模型标准性能的缺陷可以忽略不计。

Tree Counting by Bridging 3D Point Clouds with Imagery
Authors Lei Li, Tianfang Zhang, Zhongyu Jiang, Cheng Yen Yang, Jenq Neng Hwang, Stefan Oehmcke, Dimitri Pierre Johannes Gominski, Fabian Gieseke, Christian Igel
需要基于遥感数据的准确、一致的树木计数方法,以支持可持续森林管理、评估气候变化减缓战略并建立对树木碳信用额的信任。二维遥感影像主要显示林间树冠,在树冠茂密的地区不易区分单株树木,在树冠茂密时也不易区分树木。我们利用三维 LiDAR 测量和 2D 图像的融合来促进树木的准确计数。我们使用 3D 机载 LiDAR 数据和 2D 图像来比较深度学习方法来计算森林中的树木数量。该方法与最先进的算法(例如在 3D 点云和 2D 图像上运行)进行了比较。我们根据经验评估了 NeonTreeCount 数据集上的不同方法,并用它来定义树木计数基准。

xT: Nested Tokenization for Larger Context in Large Images
Authors Ritwik Gupta, Shufan Li, Tyler Zhu, Jitendra Malik, Trevor Darrell, Karttikeya Mangalam
现代计算机视觉管道以两种次优方式下采样或裁剪之一处理大图像。这两种方法会导致图像中存在的信息量和上下文显着损失。在许多下游应用中,全局背景与高频细节一样重要,例如在现实世界的卫星图像中,在这种情况下,研究人员必须做出令人不舒服的选择来丢弃哪些信息。我们引入了 xT,这是一个简单的视觉转换器框架,它可以有效地将全局上下文与局部细节聚合在一起,并可以在当代 GPU 上端到端地对大图像进行建模。我们在经典视觉任务中选择了一组基准数据集,这些数据集准确地反映了视觉模型理解真正大图像并在大范围内融合精细细节的能力,并评估我们的方法对其的改进。通过引入大图像的嵌套标记化方案以及通常用于自然语言处理的长序列长度模型,我们能够将具有挑战性的分类任务的准确性提高高达 8.6,并将大图像中上下文相关的分割的 F 1 分数提高 11.6

Semi-Supervised Semantic Segmentation Based on Pseudo-Labels: A Survey
Authors Lingyan Ran, Yali Li, Guoqiang Liang, Yanning Zhang
语义分割是计算机视觉中一个重要且流行的研究领域,重点是根据语义对图像中的像素进行分类。然而,监督深度学习需要大量数据来训练模型,并且逐像素标记图像的过程既费时又费力。本综述旨在对半监督语义分割领域伪标签方法的最新研究成果进行首次全面、有组织的概述,我们从不同角度对其进行分类,并针对特定应用领域提出具体方法。此外,我们还探索了伪标签技术在医学和遥感图像分割中的应用。

FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio
Authors Chao Xu, Yang Liu, Jiazheng Xing, Weida Wang, Mingze Sun, Jun Dan, Tianxin Huang, Siyuan Li, Zhi Qi Cheng, Ying Tai, Baigui Sun
在本文中,我们将人们听到语音、提取有意义的线索以及创建各种动态音频一致的说话面孔(称为“聆听和想象”)的过程抽象为从单个音频生成高保真多样化说话面孔的任务。具体来说,它涉及两个关键挑战,一是有效地将身份、内容和情感与纠缠音频解耦,二是保持视频内多样性和视频间一致性。为了解决这些问题,我们首先挖掘面部因素之间错综复杂的关系,并简化解耦过程,定制渐进式音频解缠以实现准确的面部几何和语义学习,其中每个阶段都包含负责特定因素的定制训练模块。其次,为了仅通过单个模型中的输入音频实现视觉多样化和音频同步动画,我们引入了可控相干帧生成,其中涉及三个可训练适配器与冻结潜在扩散模型 LDM 的灵活集成,以专注于维护面部几何形状和语义,以及帧之间的纹理和时间连贯性。通过这种方式,我们继承了LDM的高质量多样化生成,同时以较低的训练成本显着提高了其可控性。大量的实验证明了我们的方法在处理这种范式方面的灵活性和有效性。

Revisiting Learning-based Video Motion Magnification for Real-time Processing
Authors Hyunwoo Ha, Oh Hyun Bin, Kim Jun Seong, Kwon Byung Ki, Kim Sung Bin, Linh Tam Tran, Ji Yun Kim, Sung Ho Bae, Tae Hyun Oh
视频运动放大是一种捕捉和放大视频中肉眼不可见的细微运动的技术。基于深度学习的先前工作成功地证明了运动放大问题的建模,与基于传统信号处理的建模相比,具有出色的质量。然而,它仍然落后于实时性能,这阻碍了它扩展到各种在线应用程序。在本文中,我们研究了一种基于深度学习的高效运动放大模型,该模型实时运行全高清分辨率视频。由于现有技术的特定网络设计,即非同质架构,现有神经架构搜索方法的直接应用是复杂的。我们没有自动搜索,而是逐个模块地仔细研究架构,了解其在运动放大任务中的作用和重要性。两个关键发现是 1 降低解码器中潜在运动表示的空间分辨率在计算效率和任务质量之间提供了良好的权衡,2 令人惊讶的是,编码器中仅单个线性层和单个分支就足以实现运动放大任务。

CSE: Surface Anomaly Detection with Contrastively Selected Embedding
Authors Simon Thomine, Hichem Snoussi
检测工业材料的表面异常在众多工业制造过程中提出了重大挑战。近年来,出现了各种方法,利用在自然图像上预先训练的网络来提取代表性特征的优势。随后,这些特征通过各种技术进行处理,包括记忆库、规范化流和知识蒸馏,这些技术表现出了卓越的准确性。本文通过引入一种以目标特定嵌入为中心的新颖方法,重新审视基于预训练特征的方法。为了捕获所考虑纹理的最具代表性的特征,我们采用了对比训练程序的变体,该程序在训练过程中结合了人工生成的有缺陷样本和无异常样本。利用表面的内在特性,我们在训练期间从无缺陷样本中得出了有意义的表示,从而促进了异常分数的简单而有效的计算。

PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis
Authors Zhengyao Lv, Yuxiang Wei, Wangmeng Zuo, Kwan Yee K. Wong
大规模预训练文本到图像模型的最新进展导致语义图像合成取得了显着进展。然而,合成具有一致语义和布局的高质量图像仍然是一个挑战。在本文中,我们提出了自适应布局语义融合模块 PLACE,它利用预先训练的模型来缓解上述问题。具体来说,我们首先使用布局控制图来忠实地表示特征空间中的布局。随后,我们以时间步长自适应方式结合布局和语义特征,以合成具有真实细节的图像。在微调过程中,我们提出语义对齐SA损失以进一步增强布局对齐。此外,我们引入了 Layout Free Prior Preservation LFP loss,它利用未标记的数据来维护预训练模型的先验,从而提高合成图像的视觉质量和语义一致性。大量的实验表明,我们的方法在视觉质量、语义一致性和布局对齐方面表现良好。

One Prompt Word is Enough to Boost Adversarial Robustness for Pre-trained Vision-Language Models
Authors Lin Li, Haoyan Guan, Jianing Qiu, Michael Spratling
像 CLIP 这样的大型预训练视觉语言模型 VLM,尽管具有出色的泛化能力,但很容易受到对抗性示例的影响。这项工作从文本提示的新颖角度而不是本工作中冻结的广泛研究的模型权重来研究 VLM 的对抗鲁棒性。我们首先表明,对抗性攻击和防御的有效性对所使用的文本提示都很敏感。受此启发,我们提出了一种方法,通过学习 VLM 的强大文本提示来提高对抗攻击的弹性。所提出的方法名为 Adversarial Prompt Tuning APT,在计算和数据效率方面都很有效。在 15 个数据集和 4 个数据稀疏方案(从 1 个样本到完整训练数据设置)中进行了大量实验,以显示 APT 相对于手工设计的提示和其他最先进的适应方法的优越性。 APT 在分布性能和输入分布变化下以及跨数据集的泛化方面表现出了出色的能力。令人惊讶的是,通过简单地将一个学到的单词添加到提示中,APT 可以将准确性和鲁棒性 epsilon 4 255 比手工设计的提示平均分别显着提高 13 和 8.5。在我们最有效的设置中,准确性进一步提高到 26.4,鲁棒性提高到 16.7。

FreeA: Human-object Interaction Detection using Free Annotation Labels
Authors Yuxiao Wang, Zhenao Wei, Xinyu Jiang, Yu Lei, Weiying Xue, Jinxiu Liu, Qi Liu
最近的人体交互 HOI 检测方法依赖于高昂的人力成本,并且需要全面的带注释的图像数据集。在本文中,我们提出了一种新颖的自适应语言驱动的 HOI 检测方法,称为 FreeA,通过利用 CLIP 的适应性来生成潜在的 HOI 标签,无需标签。具体来说,FreeA 将人体对象对的图像特征与 HOI 文本模板进行匹配,并开发了基于先验知识的掩模方法来抑制不可能的交互。此外,FreeA利用所提出的交互相关性匹配方法来增强与指定动作相关的动作的可能性,进一步细化生成的HOI标签。对两个基准数据集的实验表明,FreeA 在弱监督 HOI 模型中实现了最先进的性能。我们的方法在交互动作的定位和分类方面比最新的弱模型更准确,在 HICO DET 上的平均精度 mAP 为 8.58,在 V COCO 上的平均精度为 1.23 mAP,比最新的弱模型分别为 1.68 mAP 和 7.28 mAP。

AllSpark: Reborn Labeled Features from Unlabeled in Transformer for Semi-Supervised Semantic Segmentation
Authors Haonan Wang, Qixiang Zhang, Yi Li, Xiaomeng Li
半监督语义分割 SSSS 的提出是为了减轻耗时的像素级手动标记的负担,它利用有限的标记数据和大量未标记数据。当前最先进的方法使用真实值训练标记数据,使用伪标签训练未标记数据。然而,两个训练流程是分开的,这使得标记数据主导训练过程,导致低质量的伪标签,从而导致次优结果。为了缓解这个问题,我们提出了 AllSpark,它通过通道明智的交叉注意机制从未标记的特征中重生标记的特征。我们进一步引入语义记忆和通道语义分组策略,以确保未标记的特征充分表示标记的特征。 AllSpark为SSSS的架构级设计而非框架级设计提供了新的思路,从而避免了日益复杂的训练管道设计。它也可以被视为一个灵活的瓶颈模块,可以无缝集成到基于通用变压器的分割模型中。拟议的 AllSpark 在 Pascal、Cityscapes 和 COCO 基准的所有评估协议中都优于现有方法,没有任何附加功能。

A Simple Baseline for Efficient Hand Mesh Reconstruction
Authors Zhishan Zhou, Shihao.zhou, Zhi Lv, Minqiang Zou, Yao Tang, Jiajun Liang
3D 手部姿势估计在手势识别和人机交互任务等领域有着广泛的应用。随着性能的提高,系统的复杂性也随之增加,这会限制这些方法的比较分析和实际实施。在本文中,我们提出了一个简单而有效的基线,它不仅超越了最先进的 SOTA 方法,而且还展示了计算效率。为了建立这个基线,我们将现有工作抽象为两个组件:令牌生成器和网格回归器,然后检查它们的核心结构。在这种情况下,核心结构是指能够实现内在功能、带来显着改进并在没有不必要的复杂性的情况下实现卓越性能的结构。我们提出的方法与对主干的任何修改无关,使其适用于任何现代模型。我们的方法优于现有解决方案,在多个数据集上实现了最先进的 SOTA 结果。在 FreiHAND 数据集上,我们的方法产生了 5.7 毫米的 PA MPJPE 和 6.0 毫米的 PA MPVPE。同样,在 Dexycb 数据集上,我们观察到 PA MPJPE 为 5.5mm,PA MPVPE 为 5.0mm。

ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models
Authors Lukas H llein, Alja Bo i , Norman M ller, David Novotny, Hung Yu Tseng, Christian Richardt, Michael Zollh fer, Matthias Nie ner
受最近成功的文本引导 2D 内容创建的启发,3D 资产生成正在受到广泛关注。现有的文本到 3D 方法在优化问题中使用预训练的文本到图像扩散模型,或在合成数据上对其进行微调,这通常会导致没有背景的非真实感 3D 对象。在本文中,我们提出了一种方法,该方法利用预训练的文本到图像模型作为先验,并学习在单个去噪过程中从现实世界数据生成多视图图像。具体来说,我们建议将 3D 体积渲染和跨帧注意层集成到文本到图像模型的现有 U Net 网络的每个块中。此外,我们设计了一种自回归生成,可以在任何视点渲染更多 3D 一致的图像。我们在真实世界的对象数据集上训练我们的模型,并展示其在真实环境中生成具有各种高质量形状和纹理的实例的能力。

PointCore: Efficient Unsupervised Point Cloud Anomaly Detector Using Local-Global Features
Authors Baozhu Zhao, Qiwei Xiong, Xiaohan Zhang, Jingfeng Guo, Qi Liu, Xiaofen Xing, Xiangmin Xu
三维点云异常检测旨在从训练集中检测异常数据点,是工业检测和自动驾驶等各种应用的基础。然而,现有的点云异常检测方法通常结合多个特征存储库来完全保留局部和全局表示,这是以计算复杂性和特征之间的不匹配为代价的。为了解决这个问题,我们提出了一种基于联合局部全局特征的无监督点云异常检测框架,称为 PointCore。具体来说,PointCore只需要一个存储体来存储局部坐标和全局PointMAE表示,并且为这些局部全局特征分配不同的优先级,从而减少推理中的计算成本和不匹配干扰。此外,为了对异常值具有鲁棒性,引入了归一化排序方法,不仅将不同尺度的值调整到名义上的公共尺度,而且将密集分布的数据转换为均匀分布。

TNF: Tri-branch Neural Fusion for Multimodal Medical Data Classification
Authors Tong Zheng, Shusaku Sone, Yoshitaka Ushiku, Yuki Oba, Jiaxin Ma
本文提出了一种三分支神经融合 TNF 方法,旨在对多模态医学图像和表格数据进行分类。它还引入了两种解决方案来解决多模态分类中标签不一致的挑战。多模态医疗数据分类中的传统方法通常依赖于单标签方法,通常合并来自两种不同输入模态的特征。当特征相互排斥或标签在不同模态中不同时,这就会成为问题,从而导致准确性降低。为了克服这个问题,我们的 TNF 方法实现了一个三分支框架,该框架管理三个独立的输出,一个用于图像模态,另一个用于表格模态,以及第三个融合图像和表格数据的混合输出。最终决策是通过集成所有三个分支的可能性的集成方法做出的。

AtomoVideo: High Fidelity Image-to-Video Generation
Authors Litong Gong, Yiran Zhu, Weijie Li, Xiaoyang Kang, Biao Wang, Tiezheng Ge, Bo Zheng
最近,基于卓越的文本图像生成技术,视频生成取得了显着的快速发展。在这项工作中,我们提出了一种用于图像到视频生成的高保真框架,名为 AtomoVideo。基于多粒度图像注入,我们实现了生成的视频对给定图像的更高保真度。此外,得益于高质量的数据集和训练策略,我们在保持卓越的时间一致性和稳定性的同时实现了更大的运动强度。我们的架构灵活地扩展到视频帧预测任务,通过迭代生成实现长序列预测。此外,由于适配器训练的设计,我们的方法可以很好地与现有的个性化模型和可控模块结合。

Superpixel Graph Contrastive Clustering with Semantic-Invariant Augmentations for Hyperspectral Images
Authors Jianhan Qi, Yuheng Jia, Hui Liu, Junhui Hou
高光谱图像 HSI 聚类是一项重要但具有挑战性的任务。最先进的SOTA方法通常依赖于超像素,然而,它们没有充分利用HSI 3D结构中的空间和光谱信息,并且它们的优化目标不是面向聚类的。在这项工作中,我们首先使用3D和2D混合卷积神经网络通过预训练提取HSI的高阶空间和光谱特征,然后设计超像素图对比聚类SPGCC模型来学习判别性超像素表示。合理的增强视图对于对比聚类至关重要,而传统的对比学习可能会损害聚类结构,因为不同的样本即使属于同一类,也会被推到嵌入空间中。在 SPGCC 中,我们为 HSI 超像素像素采样增强和模型权重增强设计了两种语义不变数据增强。然后执行样本级别对齐和聚类中心级别对比,以获得更好的超像素嵌入的类内相似性和类间相异性。我们交替执行聚类和网络优化。

Exposing the Deception: Uncovering More Forgery Clues for Deepfake Detection
Authors Zhongjie Ba, Qingyu Liu, Zhenguang Liu, Shuang Wu, Feng Lin, Li Lu, Kui Ren
Deepfake 技术催生了一系列新颖且引人注目的应用。不幸的是,高保真假视频的广泛传播导致了普遍的混乱和欺骗,粉碎了我们眼见为实的信念。迄今为止被忽视的一个方面是,当前的深度伪造检测方法很容易陷入过度拟合的陷阱,仅关注一个或几个局部区域内的伪造线索。此外,现有的工作严重依赖神经网络来提取伪造特征,缺乏理论约束来保证提取足够的伪造线索并消除多余的特征。

OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on
Authors Yuhao Xu, Tao Gu, Weifeng Chen, Chengcai Chen
VTON 上基于图像的虚拟试穿旨在生成穿着店内服装的目标人的着装图像,这是一项具有挑战性的图像合成任务,不仅要求着装人的高保真度,而且还要求充分保留服装细节。为了解决这个问题,我们提出了 Outfitting over Try on Diffusion OOTDiffusion,利用预训练的潜在扩散模型的力量,并设计一种新颖的网络架构来实现真实且可控的虚拟试穿。在没有显式变形过程的情况下,我们提出了一种服装 UNet 来学习服装细节特征,并通过我们在扩散模型的去噪过程中提出的服装融合将它们与目标人体合并。为了进一步增强我们的服装UNet的可控性,我们在训练过程中引入了服装dropout,这使得我们能够通过无分类器指导来调整服装特征的强度。我们对 VITON HD 和 Dress Code 数据集的综合实验表明,OOTDiffusion 可以有效地为任意人体和服装图像生成高质量的着装图像,在保真度和可控性方面均优于其他 VTON 方法,这表明虚拟试穿方面取得了令人印象深刻的突破。

Attention Guidance Mechanism for Handwritten Mathematical Expression Recognition
Authors Yutian Liu, Wenjun Ke, Jianguo Wei
由于数学表达式布局复杂,手写数学表达式识别 HMER 在 OCR 任务中具有挑战性,存在过度解析和解析不足等问题。为了解决这些问题,以前的方法利用历史注意力权重来改进注意力机制。然而,这种方法在解析下寻址方面存在局限性,因为它无法纠正对应在后续解码步骤中解析的图像区域的错误关注。当这种情况发生时,注意力模块会将未来的上下文合并到当前的解码步骤中,从而混淆对齐过程。为了解决这个问题,我们提出了一种注意力引导机制,以明确抑制不相关区域的注意力权重并增强适当区域的注意力权重,从而抑制对预期上下文之外的信息的访问。根据注意力引导的类型,我们设计了两种互补的方法来细化注意力权重自我引导(协调多个头的注意力)和邻居引导(整合相邻时间步骤的注意力)。

Training-Free Pretrained Model Merging
Authors Zhengqi Xu, Ke Yuan, Huiqiong Wang, Yong Wang, Mingli Song, Jie Song
最近,模型合并技术作为将多个单一人才模型组合成单个多人才模型的解决方案而出现。然而,该领域之前的努力要么需要额外的训练或微调过程,要么要求模型具有相同的预训练初始化。在这项工作中,我们发现了先前工作中的一个常见缺点。权重空间和激活空间中单元相似度的不一致。为了解决这种不一致问题,我们提出了一种创新的模型合并框架,称为双空间约束下的合并 MuDSC 。具体来说,我们主张探索位于对偶空间中具有统一高相似性的区域中的置换矩阵,而不是仅仅最大化单个空间的目标,这是通过激活和权重相似性矩阵的线性组合来实现的。为了增强可用性,我们还纳入了对组结构的调整,包括多头注意力和组标准化。全面的实验比较表明,MuDSC 可以显着提高具有各种任务组合和架构的合并模型的性能。此外,多任务损失场景中合并模型的可视化表明,MuDSC 使合并模型能够驻留在重叠部分,从而为每个任务提供统一的较低损失。

DEMOS: Dynamic Environment Motion Synthesis in 3D Scenes via Local Spherical-BEV Perception
Authors Jingyu Gong, Min Wang, Wentao Liu, Chen Qian, Zhizhong Zhang, Yuan Xie, Lizhuang Ma
现实世界 3D 场景中的运动合成最近引起了广泛关注。然而,如果存在多个动态物体,例如移动的人或车辆,则大多数当前方法所做的静态环境假设通常不能满足,特别是对于扫描点云场景中的实时运动合成。为了解决这个问题,我们提出了第一个动态环境运动合成框架DEMOS,可以根据当前场景即时预测未来的运动,并用它来动态更新潜在运动以进行最终的运动合成。具体来说,我们提出了一种球形 BEV 感知方法来提取专为即时场景感知运动预测而设计的局部场景特征。然后,我们设计了一种时变运动混合,将新的预测运动融合到潜在运动中,最终的运动是从更新的潜在运动中导出的,受益于运动先验和迭代方法。我们统一了两个流行数据集PROX和GTA IM的数据格式,并将它们用于3D场景中的运动合成评估。我们还通过 GTA IM 和 Semantic3D 评估了所提出的方法在动态环境中的有效性,以检查响应能力。

Lightweight Object Detection: A Study Based on YOLOv7 Integrated with ShuffleNetv2 and Vision Transformer
Authors Wenkai Gong
随着移动计算技术的快速发展,在移动设备上部署高效的目标检测算法成为计算机视觉的关键研究领域。本研究的重点是优化YOLOv7算法,以提高其在移动平台上的运行效率和速度,同时确保高精度。该研究利用Group Convolution、ShuffleNetV2和Vision Transformer等先进技术的协同作用,有效地减少了模型的参数数量和内存使用,简化了网络架构,并增强了资源受限设备上的实时目标检测能力。

3D Hand Reconstruction via Aggregating Intra and Inter Graphs Guided by Prior Knowledge for Hand-Object Interaction Scenario
Authors Feng Shuang, Wenbo He, Shaodong Li
近年来,3D手部重建在人机协作中受到越来越多的关注,特别是对于手部物体交互场景。然而,由于交互造成的严重手部遮挡,它仍然面临着巨大的挑战,其中包括精度和物理合理性的平衡、模型参数的高度非线性映射和遮挡特征增强。为了克服这些问题,我们提出了一种 3D 手重建网络,结合了基于模型和无模型方法的优点,以平衡手对象交互场景的准确性和物理合理性。首先,我们提出了一种直接来自 2D 关节的新型 MANO 位姿参数回归模块,它避免了从抽象图像特征进行高度非线性映射的过程,并且不再依赖于精确的 3D 关节。此外,我们进一步提出了一种由 MANO 引导的顶点联合互图注意模型,以联合细化手部网格和关节,该模型对顶点顶点和关节的依赖关系进行建模,并捕获顶点关节的相关性,以分别聚合图内和图间节点特征。

RISeg: Robot Interactive Object Segmentation via Body Frame-Invariant Features
Authors Howard H. Qian, Yangxiao Lu, Kejia Ren, Gaotian Wang, Ninad Khargonkar, Yu Xiang, Kaiyu Hang
为了在新环境中成功执行抓取等操作任务,机器人必须熟练地从背景和/或其他物体中分割出看不见的物体。之前的工作通过在大规模数据上训练深度神经网络来学习 RGB RGB D 特征嵌入来执行看不见的对象实例分割 UOIS,其中杂乱的环境通常会导致分割不准确。我们在这些方法的基础上引入了一种新颖的方法,通过使用机器人交互和设计的身体框架不变特征来纠正基于静态图像的 UOIS 掩模的不准确分割,例如分割不足。我们证明,由于机器人交互而随机附着到刚体的框架的相对线性和旋转速度可用于识别对象并累积校正的对象级别分割掩模。通过将运动引入分割不确定性区域,我们能够以不确定性驱动的方式大幅提高分割精度,并且具有最少的、非破坏性的交互。每个场景 2 3 。

MCA: Moment Channel Attention Networks
Authors Yangbo Jiang, Zhiwei Jiang, Le Han, Zenan Huang, Nenggan Zheng
通道注意力机制致力于重新校准通道权重以增强网络的表示能力。然而,主流方法通常仅仅依赖全局平均池化作为特征压缩器,这极大地限制了模型的整体潜力。在本文中,我们研究了神经网络中特征图的统计矩。我们的研究结果强调了高阶矩在增强模型能力方面的关键作用。因此,我们引入了一种灵活且全面的机制,称为广泛矩聚合 EMA 来捕获全局空间背景。在此机制的基础上,我们提出了矩通道注意力 MCA 框架,该框架有效地合并了多个级别的基于矩的信息,同时通过我们的交叉矩卷积 CMC 模块最大限度地减少了额外的计算成本。 CMC模块通过通道明智的卷积层来捕获多阶矩信息以及跨通道特征。 MCA 模块设计轻巧,易于集成到各种神经网络架构中。

HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances
Authors Supreeth Narasimhaswamy, Uttaran Bhattacharya, Xiang Chen, Ishita Dasgupta, Saayan Mitra, Minh Hoai
文本到图像生成模型可以生成高质量的人类,但在生成手时会失去真实感。常见的伪影包括不规则的手部姿势、形状、不正确的手指数量以及物理上不合理的手指方向。为了生成具有真实手部的图像,我们提出了一种名为 HanDiffuser 的新颖的基于扩散的架构,它通过在生成过程中注入手部嵌入来实现真实感。 HanDiffuser 由两个组件组成:文本到手部参数扩散模型,用于根据输入文本提示生成 SMPL Body 和 MANO 手部参数;文本引导手部参数到图像扩散模型,用于通过调节提示和先前生成的手部参数来合成图像。成分。我们整合了手部表示的多个方面,包括 3D 形状和关节级手指位置、方向和关节,以在推理过程中实现稳健的学习和可靠的性能。

DD-VNB: A Depth-based Dual-Loop Framework for Real-time Visually Navigated Bronchoscopy
Authors Qingyao Tian, Huai Liao, Xinyan Huang, Jian Chen, Zihui Zhang, Bingyu Yang, Sebastien Ourselin, Hongbin Liu
支气管镜的实时 6 DOF 定位对于提高干预质量至关重要。然而,当前基于视觉的技术很难在对看不见的数据的泛化和计算速度之间取得平衡。在这项研究中,我们提出了一种基于深度的双环框架,用于实时视觉导航支气管镜检查 DD VNB,该框架可以在患者病例中进行推广,而无需重新训练。 DD VNB框架集成了深度估计和双环定位两个关键模块。为了解决患者之间的领域差距,我们提出了一种知识嵌入深度估计网络,将内窥镜帧映射到深度,通过消除患者特定纹理来确保泛化。该网络将视图合成知识嵌入到循环对抗架构中,用于规模受限的单目深度估计。为了实现实时性能,我们的定位模块将快速自我运动估计网络嵌入到深度配准循环中。自我运动推理网络估计支气管镜的高频姿态变化,而针对术前 3D 模型的深度配准定期提供绝对姿态。具体来说,相对姿势的变化被输入配准过程作为初始猜测,以提高其准确性和速度。对体模和患者体内数据的实验证明了我们框架的有效性 1 单目深度估计优于 SOTA,2 定位实现了体模中绝对跟踪误差 ATE 的准确度为 4.7 pm 3.17 mm,患者数据中为 6.49 pm 3.88 mm,3帧速率接近视频捕获速度,4 无需按情况进行网络重新训练。

Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection
Authors Jieren Deng, Haojian Zhang, Kun Ding, Jianhua Hu, Xingxuan Zhang, Yunkuan Wang
本文提出了增量视觉语言对象检测 IVLOD,这是一种新颖的学习任务,旨在增量地将预训练的视觉语言对象检测模型 VLODM 适应各种专业领域,同时保留其针对通用领域的零样本泛化能力。为了应对这一新挑战,我们提出了零干扰可重参数化适应 ZiRa,这是一种引入零干扰损失和重参数化技术来解决 IVLOD 的新颖方法,而不会产生额外的推理成本或显着增加内存使用量。在 COCO 和 ODinW 13 数据集上的综合实验表明,ZiRa 在不断适应新任务的同时,有效保障了 VLODM 的零样本泛化能力。

PillarGen: Enhancing Radar Point Cloud Density and Quality via Pillar-based Point Generation Network
Authors Jisong Kim, Geonho Bang, Kwangjin Choi, Minjae Seong, Jaechang Yoo, Eunjong Pyo, Jun Won Choi
在本文中,我们提出了一种新颖的点生成模型,称为基于 Pillar 的点生成网络 PillarGen,它有助于点云从一个域到另一个域的转换。 PillarGen 可以根据提供的输入点云生成具有增强密度和质量的合成点云。 PillarGen 模型执行以下三个步骤:1 柱编码、2 占用柱预测 OPP 和 3 柱到点生成 PPG。使用柱网格结构对输入点云进行编码以生成柱特征。然后,OPP 确定用于点生成的活动支柱,并预测点的中心以及为每个活动支柱生成的点的数量。 PPG 根据 OPP 提供的信息为每个活动支柱生成综合点。我们使用我们专有的雷达数据集评估 PillarGen 的性能,重点是使用远程雷达数据作为监督来提高短程雷达数据的密度和质量。我们的实验表明,PillarGen 在定量和定性测量方面优于传统的点上采样方法。

Neural Network Assisted Lifting Steps For Improved Fully Scalable Lossy Image Compression in JPEG 2000
Authors Xinyue Li, Aous Naman, David Taubman
这项工作提出用额外的神经网络辅助提升步骤来增强传统小波变换的提升步骤。这些额外的步骤减少了残余冗余,特别是小波子带之间的混叠信息,并且还提高了在降低的分辨率下重建图像的视觉质量。所提出的方法涉及两个步骤,先是从高到低的步骤,然后是从低到高的步骤。从高到低的步长通过使用相同分辨率的细节频带来抑制低通带中的混叠,而从低到高的步长旨在进一步去除细节频带的冗余,从而实现更高的能量压缩。所提出的两个提升步骤以端到端的方式进行训练,我们采用向后退火方法来克服反向传播期间量化和成本函数的不可微性。重要的是,本文中使用的网络是紧凑的并且具有有限的非线性,允许完全可扩展的系统将一对经过训练的网络参数应用于所有级别的分解和所有感兴趣的比特率。

OccFusion: A Straightforward and Effective Multi-Sensor Fusion Framework for 3D Occupancy Prediction
Authors Zhenxing Ming, Julie Stephany Berrio, Mao Shan, Stewart Worrall
本文介绍了 OccFusion,这是一种简单高效的传感器融合框架,用于预测 3D 占用情况。对 3D 场景的全面理解对于自动驾驶至关重要,最近的 3D 语义占用预测模型已经成功解决了描述具有不同形状和类别的现实世界对象的挑战。然而,现有的 3D 占用预测方法严重依赖环视摄像机图像,这使得它们容易受到照明和天气条件变化的影响。通过集成激光雷达和环视雷达等其他传感器的功能,我们的框架提高了占用预测的准确性和鲁棒性,从而在 nuScenes 基准测试中实现顶级性能。此外,在 nuScenes 数据集上进行的大量实验(包括具有挑战性的夜间和雨天场景)证实了我们的传感器融合策略在各种感知范围内的卓越性能。

AIO2: Online Correction of Object Labels for Deep Learning with Incomplete Annotation in Remote Sensing Image Segmentation
Authors Chenying Liu, Conrad M Albrecht, Yi Wang, Qingyu Li, Xiao Xiang Zhu
尽管遥感数据量每天都在增加,但地球观测中的深度学习面临着缺乏监督优化的准确注释。 OpenStreetMap 等众包项目将注释负载分配给其社区。然而,由于标签质量控制不够、标注者缺乏、自然灾害和城市发展导致地球表面频繁变化等因素,这种标注不可避免地会产生噪音。我们提出了自适应触发在线对象明智校正 AIO2,以解决由不完整标签集引起的注释噪声。 AIO2 具有自适应校正触发 ACT 模块,可在模型训练不足或过度拟合时避免标签校正,以及在线对象明智校正 O2C 方法,可利用空间信息进行自动标签修改。 AIO2利用均值教师模型来增强带有噪声标签的训练鲁棒性,以稳定ACT中拟合的训练精度曲线,并为O2C中的校正提供伪标签。此外,O2C是在线实现的,无需在每个训练周期存储更新的标签。我们在两个具有不同空间分辨率的建筑足迹分割数据集上验证了我们的方法。不同程度的建筑标签噪声的实验结果证明了 AIO2 的稳健性。

Spectrum AUC Difference (SAUCD): Human-aligned 3D Shape Evaluation
Authors Tianyu Luan, Zhong Li, Lele Chen, Xuan Gong, Lichang Chen, Yi Xu, Junsong Yuan
现有的3D网格形状评估指标主要关注整体形状,但通常对局部细节不太敏感。这使得它们与人类的评估不一致,因为人类的感知既关心整体形状又关心细节形状。在本文中,我们提出了一种名为曲线下频谱面积差异 SAUCD 的分析指标,它与人类评估具有更好的一致性。为了比较两种形状之间的差异,我们首先使用离散拉普拉斯贝尔特拉米算子和傅里叶变换将 3D 网格变换到谱域。然后,我们计算两个频谱之间的曲线下面积 AUC 差异,以便公平地考虑捕获整体或详细形状的每个频带。考虑到人类跨频段的敏感性,我们通过学习每个频段的合适权重来进一步扩展我们的指标,从而更好地符合人类感知。为了衡量 SAUCD 的性能,我们构建了一个名为“形状分级”的 3D 网格评估数据集,以及来自 800 多个受试者的手动注释。

A Unified Model Selection Technique for Spectral Clustering Based Motion Segmentation
Authors Yuxiang Huang, John Zelek
运动分割是计算机视觉中的一个基本问题,在机器人、自动驾驶和动作识别等各种应用中至关重要。最近,基于谱聚类的方法在动态环境中的运动分割方面显示出了令人印象深刻的结果。这些方法对运动亲和力矩阵执行谱聚类,将场景中的对象或点轨迹聚类到不同的运动组中。然而,现有方法通常需要知道场景中存在的运动数量,这大大降低了它们的实用性。在本文中,我们提出了一种统一的模型选择技术,通过将不同的现有模型选择技术结合在一起,自动推断基于谱聚类的运动分割方法的运动组的数量。

SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos
Authors Yulei Niu, Wenliang Guo, Long Chen, Xudong Lin, Shih Fu Chang
我们研究教学视频中的程序规划问题,其目的是在给定部分视觉状态观察的情况下制定面向目标的行动步骤序列。这个问题的动机是学习一个结构化的、可规划的状态和动作空间。最近的工作成功地对步骤进行了序列建模,在训练期间只能访问序列级注释,这忽略了过程中状态的作用。在这项工作中,我们指出状态变化对于教学视频中的程序规划来说很重要。我们的目标是通过研究程序中步骤和状态之间的因果关系来建立一个更加结构化的状态空间。具体来说,我们明确地将每个步骤表示为状态变化,并跟踪过程中的状态变化。对于步骤表示,我们利用大型语言模型法学硕士中的常识知识,通过我们设计的思维提示链来描述步骤的状态变化。对于状态变化跟踪,我们通过跨模态对比学习将视觉状态观察与语言状态描述对齐,并使用 LLM 生成的状态描述对过程的中间状态进行显式建模。

Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV & CribsTV
Authors Jaime Spencer, Chris Russell, Simon Hadfield, Richard Bowden
自监督学习是解锁通用计算机视觉系统的关键。通过消除对真实注释的依赖,它允许扩展到更大的数据量。不幸的是,自监督单目深度估计 SS MDE 因缺乏多样化的训练数据而受到限制。

Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition
Authors Kun Yu Lin, Henghui Ding, Jiaming Zhou, Yi Xing Peng, Zhilin Zhao, Chen Change Loy, Wei Shi Zheng
对比语言图像预训练 CLIP 在各种图像理解任务中表现出了卓越的开放词汇能力。基于这一令人印象深刻的成功,最近的开创性工作提出将强大的 CLIP 应用于视频数据,从而使视频学习者能够高效且有效地进行开放词汇动作识别。受人类在不同环境中执行动作这一事实的启发,我们的工作深入研究了一个有趣的问题:基于 CLIP 的视频学习器能否有效地推广到他们在训练过程中未遇到的视频域。为了回答这个问题,我们建立了一个跨域开放词汇动作识别基准,名为XOV Action,并对五种最先进的基于 CLIP 的视频学习器在各种类型的领域差距下进行综合评估。我们的评估表明,以前的方法在看不见的视频域中表现出有限的动作识别性能,揭示了跨域开放词汇动作识别任务的潜在挑战。为了解决这项任务,我们的工作重点关注一个关键挑战,即场景偏差,因此我们贡献了一种新颖的场景感知视频文本对齐方法。我们的关键思想是将视频表示与场景编码文本表示区分开来,旨在学习与场景无关的视频表示以识别跨域的动作。大量的实验结果证明了我们方法的有效性。

Self-Supervised Representation Learning with Meta Comprehensive Regularization
Authors Huijie Guo, Ying Ba, Jie Hu, Lingyu Si, Wenwen Qiang, Lei Shi
自监督学习 SSL 方法通过利用数据增强策略来利用语义不变性的概念,为同一输入的不同变形生成相似的表示。本质上,该模型捕获样本的多个增强视图之间的共享信息,同时忽略可能对下游任务有益的非共享信息。为了解决这个问题,我们引入了一个名为 CompMod 的模块,它具有元综合正则化 MCR ,嵌入到现有的自监督框架中,以使学习到的表示更加全面。具体来说,我们通过双层优化机制更新我们提出的模型,使其能够捕获全面的特征。此外,在使用最大熵编码约束提取特征的指导下,自监督学习模型在学习一致特征的基础上学习更全面的特征。此外,我们从信息论和因果反事实的角度为我们提出的方法提供理论支持。

Hyperspectral Image Analysis in Single-Modal and Multimodal setting using Deep Learning Techniques
Authors Shivam Pande
高光谱成像凭借其卓越的光谱分辨率,可以对土地利用和覆盖进行精确分类。然而,高维和有限空间分辨率的挑战阻碍了其有效性。本研究通过采用深度学习技术以集成的方式有效地处理、提取特征和分类数据来解决这些挑战。为了提高空间分辨率,我们通过多模态学习整合来自补充模态(例如 LiDAR 和 SAR 数据)的信息。此外,利用对抗性学习和知识蒸馏来克服领域差异和缺失模式引起的问题。我们还定制深度学习架构以适应 HSI 数据的独特特征,利用一维卷积和循环神经网络来处理其连续光谱维度。架构内的视觉注意和反馈连接等技术增强了特征提取的稳健性。此外,我们通过自监督学习方法解决训练样本有限的问题,采用自动编码器进行降维,并探索利用未标记数据的半监督学习技术。

Efficient Action Counting with Dynamic Queries
Authors Zishi Li, Xiaoxuan Ma, Qiuyan Shang, Wentao Zhu, Hai Ci, Yu Qiao, Yizhou Wang
时间重复计数旨在量化视频中重复的动作周期。大多数现有方法依靠相似性相关矩阵来表征动作的重复性,但由于二次计算复杂性,其可扩展性受到阻碍。在这项工作中,我们引入了一种新颖的方法,该方法采用动作查询表示来以线性计算复杂度来定位重复的动作循环。基于这种表示,我们进一步开发了两个关键组件来解决时间重复计数的基本挑战。首先,为了促进开放集动作计数,我们提出了动作查询的动态更新方案。与静态动作查询不同,这种方法将视频特征动态嵌入到动作查询中,提供更灵活和更通用的表示。其次,为了区分感兴趣的动作和背景噪声动作,我们结合查询间对比学习来规范与不同动作查询相对应的视频表示。因此,我们的方法显着优于以前的工作,特别是在长视频序列、看不见的动作和不同速度的动作方面。在具有挑战性的 RepCountA 基准测试中,我们的 OBO 准确度比最先进的方法 TransRAC 高出 26.5,平均误差降低了 22.7,计算负担降低了 94.1。

MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images
Authors Junwen Huang, Hao Yu, Kuan Ting Yu, Nassir Navab, Slobodan Ilic, Benjamin Busam
最近的物体姿态估计学习方法需要对每个单独的物体实例或类别进行资源密集型训练,当面对以前未见过的物体时,这阻碍了它们在实际应用中的可扩展性。在本文中,我们提出了 MatchU,一种用于从 RGB D 图像进行 6D 姿态估计的 Fuse 描述匹配策略。 MatchU 是一种融合 2D 纹理和 3D 几何线索的通用方法,用于对不可见物体进行 6D 姿态预测。我们依赖于学习几何 3D 描述符,这些描述符在设计上是旋转不变的。通过编码与姿态无关的几何形状,学习到的描述符自然地推广到看不见的物体并捕获对称性。为了仅使用 3D 几何来解决模糊关联,我们将额外的 RGB 信息融合到描述符中。这是通过一种新颖的基于注意力的机制来实现的,该机制融合了跨模态信息,以及利用从 RGB 数据学习的潜在空间来指导描述符学习过程的匹配损失。大量实验揭示了 RGB D 融合策略以及描述符功效的通用性。

End-to-End Human Instance Matting
Authors Qinglin Liu, Shengping Zhang, Quanling Meng, Bineng Zhong, Peiqiang Liu, Hongxun Yao
人体实例抠图的目的是估计图像中每个人体实例的 alpha 遮罩,这是极具挑战性的,并且迄今为止很少被研究。尽管做出了一些努力,使用实例分割为每个实例生成三元图并应用基于三元图的抠图方法,但由于分割不准确,生成的 alpha 遮罩通常不准确。此外,由于抠图方法的多次执行,这种方法的计算效率较低。为了解决这些问题,本文提出了一种新颖的端到端人体实例抠图 E2E HIM 框架,以更有效的方式同时进行多个实例抠图。具体来说,通用感知网络首先提取图像特征并将实例上下文解码为潜在代码。然后,联合引导网络利用空间注意力和语义嵌入来生成联合语义指导,对所有实例的位置和语义对应进行编码。最后,实例抠图网络对图像特征进行解码并统一语义指导来预测所有实例级 alpha 遮罩。此外,我们还构建了一个大规模人体实例抠图数据集 HIM 100K,其中包含超过 100,000 张带有实例 alpha 抠图标签的人类图像。 HIM 100K 上的实验表明,所提出的 E2E HIM 在人体实例抠图方面优于现有方法,在 640X640 图像中的 6 个实例中,错误率降低了 50 个,速度提高了 5 倍。

SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation
Authors Hongjian Liu, Qingsong Xie, Zhijie Deng, Chen Chen, Shixiang Tang, Fueyang Fu, Zheng jun Zha, Haonan Lu
扩散模型 DM 使用的迭代采样过程通常会导致显着的推理延迟。为了解决这个问题,我们提出随机一致性蒸馏 SCott 来加速文本到图像的生成,只需 1-2 个采样步骤即可实现高质量的生成,并且可以通过添加额外的步骤来获得进一步的改进。与普通一致性蒸馏 CD 将基于预训练教师模型采样过程的常微分方程求解器蒸馏到学生中相比,SCott 探索了将随机微分方程 SDE 求解器集成到 CD 中的可能性并验证了其有效性,以充分释放一致性蒸馏的潜力老师。 SCott 通过精心设计的策略来控制 SDE 求解器的噪声强度和采样过程。进一步纳入对抗性损失,以通过罕见的采样步骤来增强样本质量。根据经验,在具有 Stable Diffusion V1.5 教师的 MSCOCO 2017 5K 数据集上,SCott 实现了 22.1 的 FID Frechet Inceptio Distance,超过了 1 步 InstaFlow Liu 等人 (2023) 的 23.4,并与 4 步 UFOGen Xue 等人的结果相匹配等,2023b。此外,与用于高分辨率图像生成的其他一致性模型相比,SCott 可以生成更多样的样本(Luo 等人,2023a),合格指标提高了 16 倍。

Learning A Physical-aware Diffusion Model Based on Transformer for Underwater Image Enhancement
Authors Chen Zhao, Chenyu Dong, Weiling Cai
水下视觉经历各种复杂的退化,不可避免地影响水下视觉任务的效率。最近,扩散模型被应用于水下图像增强UIE任务,并获得了SOTA性能。然而,这些方法未能考虑扩散过程中的物理特性和水下成像机制,限制了扩散模型的信息补全能力。

Regeneration Based Training-free Attribution of Fake Images Generated by Text-to-Image Generative Models
Authors Meiling Li, Zhenxing Qian, Xinpeng Zhang
文本到图像生成模型最近引起了极大的关注,因为它们能够根据提示描述生成图像。虽然这些模型表现出了良好的性能,但人们仍然担心生成的假图像可能被滥用。针对这一点,我们提出了一种简单而有效的免训练方法,将文本到图像模型生成的假图像归因于其源模型。给定要归因的测试图像,我们首先反转图像的文本提示,然后将重构的提示放入不同的候选模型中以重新生成候选假图像。通过计算测试图像与候选图像的相似度并进行排序,可以确定图像的来源。这种归因允许模型所有者对其模型的任何滥用负责。请注意,我们的方法并不限制图像生成模型的候选文本数量。综合实验表明 1 我们的方法可以有效地将假图像归因于其源模型,实现与最先进的方法相当的归因性能 2 我们的方法具有高可扩展性,非常适合现实世界的归因场景。 3 所提出的方法对高斯模糊、JPEG 压缩和调整大小等常见攻击具有令人满意的鲁棒性。我们还分析了影响归因性能的因素,并探讨了所提出的方法作为插件所带来的提升,以提高现有SOTA的性能。

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding
Authors Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
多模态大型语言模型 MLLM 最近经历了重大进步。然而,准确识别和理解高分辨率图像中的复杂细节仍然存在挑战。尽管对于发展强大的 MLLM 来说是不可或缺的,但这一领域的研究仍然不足。为了应对这一挑战,我们的工作引入了 InfiMM HD,这是一种专门为以较低的计算开销处理不同分辨率的图像而设计的新颖架构。这项创新有助于将 MLLM 扩展到更高分辨率。 InfiMM HD 结合了交叉注意模块和视觉窗口来降低计算成本。通过将此架构设计与四阶段训练流程相集成,我们的模型有效且经济高效地获得了改进的视觉感知。实证研究强调了InfiMM HD的稳健性和有效性,为相关领域的探索开辟了新途径。

EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation
Authors Chanyoung Kim, Woojung Han, Dayun Ju, Seong Jae Hwang
语义分割本质上依赖于广泛的像素级标记注释数据,导致无监督方法的出现。其中,利用自监督视觉变压器进行无监督语义分割 USS 一直在表达深度特征方面取得稳步进展。然而,对于具有复杂对象的图像进行语义分割,主要的挑战仍然是在补丁级特征中缺乏明确的对象级语义编码。这种技术限制通常会导致对具有不同结构的复杂对象的分割不充分。为了解决这一差距,我们提出了一种新方法 EAGLE,它强调以对象为中心的表示学习来进行无监督语义分割。具体来说,我们介绍了 EiCue,一种光谱技术,通过从深层图像特征的语义相似性矩阵和图像的颜色亲和力导出的特征基提供语义和结构线索。此外,通过将我们的以对象为中心的对比损失与 EiCue 相结合,我们引导我们的模型学习具有图像内和图像间对象特征一致性的对象级表示,从而提高语义准确性。

CCC: Color Classified Colorization
Authors Mrityunjoy Gain, Avi Deb Raha, Rameswar Debnath
由于对象内部和对象之间的颜色变化以及由于广泛的背景而导致主要对象的面积较小,因此对具有不同颜色和大小的对象的灰度图像进行自动着色具有挑战性。学习过程通常偏向于主导特征,从而导致模型有偏差。在本文中,我们将着色问题转化为多项分类问题,然后将加权函数应用于类别。我们提出了一组公式来将颜色值转换为颜色类别,反之亦然。类优化和平衡特征分布是良好性能的关键。在实践中观察各种超大规模实时图像的类外观,我们为我们的着色任务提出了 215 个颜色类。在训练过程中,我们根据每批中的真实类别外观提出一个类别加权函数,以确保各个对象的适当颜色饱和度。我们在主要类别和次要类别之间建立权衡,通过消除主要类别对次要类别的主导地位来提供正统的类别预测。当我们应用正则化来增强次要类的稳定性时,对象的边缘可能会偶尔出现次要噪声。我们提出了一种新颖的对象选择性颜色协调方法,由 SAM 授权来细化和增强这些边缘。我们提出了一种新的彩色图像评估指标,即色数比 CNR,来量化颜色分量的丰富度。我们使用五个不同的数据集 ADE、Celeba、COCO、Oxford 102 Flower 和 ImageNet,以定性和定量方法将我们提出的模型与最先进的模型进行比较。

Is in-domain data beneficial in transfer learning for landmarks detection in x-ray images?
Authors Roberto Di Via, Matteo Santacesaria, Francesca Odone, Vito Paolo Pastore
近年来,深度学习已成为医学图像分析的一种有前景的技术。然而,该应用程序领域可能会受到大型公共数据集和注释的可用性有限的影响。深度学习中应对这些挑战的常见解决方案是使用迁移学习框架,通常带有微调协议,其中使用大规模源数据集来预训练模型,并在目标数据集上进一步微调。在本文中,我们提出了一项系统研究,分析在域 X 射线图像数据集中使用小尺度是否可以比仅在大型自然图像数据集上预训练的模型为地标检测提供任何改进。我们专注于三个数据集的多地标定位任务,包括胸部、头部和手部 X 射线图像。我们的结果表明,与 ImageNet 域外预训练相比,使用域内源数据集带来的好处微乎其微,甚至没有任何好处。

Multiview Subspace Clustering of Hyperspectral Images based on Graph Convolutional Networks
Authors Xianju Li, Renxiang Guan, Zihao Li, Hao Liu, Jing Yang
高维和复杂的光谱结构使得高光谱图像 HSI 的聚类成为一项具有挑战性的任务。子空间聚类已被证明是解决该问题的有效方法。然而,当前的子空间聚类算法主要是针对单视图设计的,并没有充分利用HSI中的空间或纹理特征信息。本研究提出了一种基于图卷积网络的HSI多视图子空间聚类。 1 本文利用图卷积网络强大的分类能力和节点间拓扑关系的学习能力来分析和表达HSI的空间关系。 2 发送像素纹理和像素邻居空间光谱信息来构造两个图卷积子空间。 3 使用基于注意力的融合模块自适应地构建更具辨别力的特征图。该模型在三个流行的 HSI 数据集(包括 Indian Pines、Pavia University 和 Houston)上进行了评估。它的总体准确率分别为 92.38 、 93.43 和 83.82 ,并且显着优于最先进的聚类方法。

GuardT2I: Defending Text-to-Image Models from Adversarial Prompts
Authors Yijun Yang, Ruiyuan Gao, Xiao Yang, Jianyuan Zhong, Qiang Xu
文本到图像 T2I 模型的最新进展引发了重大的安全担忧,尽管存在 NSFW 分类器或模型微调等针对不适当概念删除的对策,但它们可能被误用来生成不适当或不安全工作 NSFW 内容。为了应对这一挑战,我们的研究推出了 GuardT2I,这是一种新颖的调节框架,它采用生成方法来增强 T2I 模型针对对抗性提示的鲁棒性。 GuardT2I 没有进行二元分类,而是利用大型语言模型 LLM 有条件地将 T2I 模型中的文本指导嵌入转换为自然语言,以进行有效的对抗性提示检测,而不会影响模型的固有性能。

3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos
Authors Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing
从多视图视频中构建逼真的自由视点视频动态场景 FVV 仍然是一项具有挑战性的工作。尽管当前的神经渲染技术取得了显着的进步,但这些方法通常需要完整的视频序列进行离线训练,并且无法实时渲染。为了解决这些限制,我们引入了 3DGStream,这是一种专为现实世界动态场景的高效 FVV 流式传输而设计的方法。我们的方法实现了 12 秒内快速每帧重建和 200 FPS 的实时渲染。具体来说,我们利用 3D 高斯 3DG 来表示场景。我们没有采用直接优化每帧 3DG 的简单方法,而是采用紧凑的神经变换缓存 NTC 来对 3DG 的平移和旋转进行建模,从而显着减少每个 FVV 帧所需的训练时间和存储。此外,我们提出了一种自适应 3DG 添加策略来处理动态场景中的新兴对象。

Pyramid Feature Attention Network for Monocular Depth Prediction
Authors Yifang Xu, Chenglei Peng, Ming Li, Yang Li, Sidan Du
深度卷积神经网络 DCNN 在单目深度估计 MDE 方面取得了巨大成功。然而,现有的工作很少考虑不同级别特征图对 MDE 的贡献,从而导致预测中空间布局不准确、边界模糊和物体表面不连续。为了更好地解决这些问题,我们提出了金字塔特征注意力网络 PFANet 来改进高层上下文特征和低层空间特征。在所提出的 PFANet 中,我们设计了一个双尺度通道注意力模块 DCAM,以在不同尺度上使用通道注意力,从而聚合来自高级特征图的全局上下文和局部信息。为了利用视觉特征的空间关系,我们设计了一个空间金字塔注意力模块SPAM,它可以引导网络关注低级特征图中的多尺度详细信息。最后,我们引入尺度不变梯度损失来增加对深度不连续区域中错误的惩罚。

Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis
Authors Xin Zhou, Dingkang Liang, Wei Xu, Xingkui Zhu, Yihan Xu, Zhikang Zou, Xiang Bai
通过迁移点云预训练模型,点云分析取得了出色的性能。然而,现有的模型自适应方法通常会更新所有模型参数,即完全微调范式,这种方法效率低下,因为它依赖于高计算成本,例如训练GPU内存和海量存储空间。在本文中,我们的目标是研究用于点云分析的参数高效迁移学习,在任务性能和参数效率之间实现理想的权衡。为了实现这一目标,我们冻结默认预训练模型的参数,然后提出动态适配器,考虑到令牌对下游任务的重要性,它为每个令牌生成动态比例。我们通过构建内部提示,捕获实例特定的交互功能,进一步将动态适配器与提示调整 DAPT 无缝集成。在五个具有挑战性的数据集上进行的大量实验表明,与完全微调的对应数据相比,所提出的 DAPT 实现了卓越的性能,同时将可训练参数和训练 GPU 内存分别显着减少了 95 和 35。

GPTSee: Enhancing Moment Retrieval and Highlight Detection via Description-Based Similarity Features
Authors Yunzhuo Sun, Yifang Xu, Zien Xie, Yukun Shu, Sidan Du
时刻检索 MR 和亮点检测 HD 旨在从相应的自然语言查询中识别视频中的相关时刻和亮点。大型语言模型法学硕士已表现出对各种计算机视觉任务的熟练程度。然而,现有的 MR HD 方法尚未与法学硕士集成。在这封信中,我们提出了一种新颖的两级模型,它将 LLM 的输出作为第二级变压器编码器解码器的输入。首先,采用 MiniGPT 4 生成视频帧的详细描述并重写查询语句,作为新特征馈入编码器。然后,计算生成的描述和重写的查询之间的语义相似度。最后,连续的高相似度视频帧被转换为跨度锚点,作为解码器的先验位置信息。

Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval
Authors Yongchao Du, Min Wang, Wengang Zhou, Shuping Hui, Houqiang Li
组合图像检索 CIR 的任务旨在根据查询图像和描述用户意图的文本来检索图像。现有的方法在 CIR 任务中利用先进的大视觉语言 VL 模型取得了很大的进步,但是,它们普遍存在两个主要问题:缺乏用于模型训练的标记三元组以及在部署大视觉语言模型时难以在资源受限的环境中部署。为了解决上述问题,我们提出了基于 Image2Sentence 的非对称零样本合成图像检索 ISA,它利用 VL 模型,仅依赖未标记图像进行合成学习。在该框架中,我们提出了一种新的自适应标记学习器,它将图像映射到 VL 模型的词嵌入空间中的句子。该句子自适应地捕获有区别的视觉信息,并进一步与文本修饰符集成。为了灵活部署,设计了非对称结构,查询侧采用轻量级模型,图库侧部署大型VL模型。采用全局对比蒸馏和局部对齐正则化来进行 CIR 任务的光模型和 VL 模型之间的对齐。

Logit Standardization in Knowledge Distillation
Authors Shangquan Sun, Wenqi Ren, Jingzhi Li, Rui Wang, Xiaochun Cao
知识蒸馏涉及使用基于共享温度的 softmax 函数将软标签从教师转移到学生。然而,教师和学生之间共享温度的假设意味着他们的逻辑在逻辑范围和方差方面必须完全匹配。考虑到学生之间的能力差异以及教师固有的逻辑关系足以让学生学习,这种副作用限制了学生的表现。为了解决这个问题,我们建议将温度设置为 logit 的加权标准差,并在应用 softmax 和 Kullback Leibler 散度之前执行即插即用的 Logit 标准化 Z 分数预处理。我们的预处理使学生能够专注于老师提供的基本 Logit 关系,而不是要求大小匹配,并且可以提高现有基于 Logit 的蒸馏方法的性能。我们还展示了一个典型案例,即教师和学生之间共享温度的传统设置无法可靠地产生真实的蒸馏评估,尽管如此,我们的 Z 分数成功缓解了这一挑战。我们在 CIFAR 100 和 ImageNet 上针对各种学生和教师模型广泛评估了我们的方法,显示出其显着的优越性。

MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies
Authors Zhende Song, Chenchen Wang, Jiamu Sheng, Chi Zhang, Gang Yu, Jiayuan Fan, Tao Chen
多模态模型的发展标志着机器理解视频的方式向前迈出了重要一步。这些模型在分析短视频剪辑方面显示出了前景。然而,当涉及电影等较长格式时,它们往往会出现不足。主要障碍是缺乏高质量、多样化的视频数据以及收集或注释此类数据所需的大量工作。面对这些挑战,我们提出了 MovieLLM,这是一种新颖的框架,旨在为长视频创建合成的高质量数据。该框架利用 GPT 4 和文本到图像模型的强大功能来生成详细的脚本和相应的视觉效果。我们的方法以其灵活性和可扩展性而著称,使其成为传统数据收集方法的绝佳替代方案。

A Simple-but-effective Baseline for Training-free Class-Agnostic Counting
Authors Yuhao Lin, Haiming Xu, Lingqiao Liu, Javen Qinfeng Shi
与类别无关的计数 CAC 旨在仅通过几个参考示例来准确计数给定图像中的对象。虽然以前实现此目的的方法依赖于额外的训练,但最近的努力表明,通过利用预先存在的基础模型(特别是分段任意模型 SAM)通过实例级分段进行计数,无需训练即可实现此目的。尽管前景广阔,但当前的免训练方法在性能方面仍然落后于基于训练的方法。在这项研究中,我们提出了一种简单的免培训解决方案,可以有效地弥合这种性能差距,并作为强有力的基线。我们工作的主要贡献在于发现了四种可以提高性能的关键技术。具体来说,我们建议采用超像素算法来生成更精确的初始点提示,利用具有更丰富语义知识的图像编码器来代替SAM编码器来表示候选对象,并采用多尺度机制和转导原型方案来更新参考的表示例子。

Unsigned Orthogonal Distance Fields: An Accurate Neural Implicit Representation for Diverse 3D Shapes
Authors Yujie Lu, Long Wan, Nayu Ding, Yulong Wang, Shuhan Shen, Shen Cai, Lin Gao
近年来,几何形状的神经隐式表示取得了长足的进步。然而,基于隐式表示的常见距离场,特别是用于防水形状的有符号距离场 SDF 或用于任意形状的无符号距离场 UDF,在转换为显式表面点和网格时通常会遭受重建精度下降的影响。在本文中,我们介绍了一种基于无符号正交距离场 UODF 的新型神经隐式表示。在 UODF 中,从任何空间点到形状表面的最小无符号距离仅在一个正交方向上定义,这与 SDF 和 UDF 进行的多方向确定形成对比。因此,3D UODF 中的每个点都可以沿三个正交方向直接访问其最近的表面点。这一独特的功能利用了表面点的精确重建,没有插值误差。

LUM-ViT: Learnable Under-sampling Mask Vision Transformer for Bandwidth Limited Optical Signal Acquisition
Authors Lingfeng Liu, Dong Ni, Hangjie Yuan
信号采集期间的带宽限制经常阻碍实时检测应用。高光谱数据就是一个值得注意的例子,其庞大的数据量影响了实时高光谱检测。为了解决这个障碍,我们引入了一种利用预采集调制来减少采集量的新颖方法。该调制过程由深度学习模型利用先验信息控制。我们方法的核心是 LUM ViT,一种 Vision Transformer 变体。独特的是,LUM ViT 结合了专为预采集调制而定制的可学习的采样下模板。为了进一步优化光学计算,我们提出了内核级权重二值化技术和三阶段微调策略。我们的评估表明,通过仅采样 10 个原始图像像素,LUM ViT 在 ImageNet 分类任务上将精度损失保持在 1.8 以内。该方法在现实世界的光学硬件上实现时保持了接近原始的精度,证明了其实用性。

Region-Transformer: Self-Attention Region Based Class-Agnostic Point Cloud Segmentation
Authors Dipesh Gyawali, Jian Zhang, BB Karki
点云分割可以帮助我们了解特定结构和对象的环境,可以以特定于类和类不可知的方式执行。我们提出了一种称为 Region Transformer 的新型基于区域的变压器模型,用于执行与类别无关的点云分割。该模型利用区域增长方法和自注意力机制,通过添加或删除点来迭代扩展或收缩区域。它仅在具有实例标签的模拟点云上进行训练,避免了语义标签。基于注意力的网络已经在许多以前执行点云分割的方法中取得了成功。然而,基于注意力网络的区域增长方法尚未用于探索其性能增益。据我们所知,我们是第一个在区域增长方法中使用自注意力机制的人。通过将自我关注引入可以利用邻域点的局部上下文信息的区域增长,我们的实验表明,区域变换器模型在有关聚类指标的室内数据集上优于先前的类不可知论和类特定方法。该模型可以很好地推广到大规模场景。主要优点包括通过自注意力捕获长范围依赖关系,避免在训练期间需要语义标签,以及适用于可变数量的对象。

SA-MixNet: Structure-aware Mixup and Invariance Learning for Scribble-supervised Road Extraction in Remote Sensing Images
Authors Jie Feng, Hao Huang, Junpeng Zhang, Weisheng Dong, Dingwen Zhang, Licheng Jiao
主流的弱监督道路提取器依赖于从涂鸦传播的高度置信的伪标签,并且随着图像场景的变化,它们的性能通常会逐渐下降。我们认为这种退化是由于模型对不同复杂度的场景的不变性较差,而现有的解决方案通常基于精心设计的先验,而这些先验不能从涂鸦中得出。为了消除对此类先验的依赖,我们提出了一种新颖的结构感知混合和不变性学习框架 SA MixNet,用于弱监督道路提取,以数据驱动的方式提高模型不变性。具体来说,我们设计了一种结构感知混合方案,将道路区域从一张图像粘贴到另一张图像上,以创建复杂性更高的图像场景,同时保留道路的结构完整性。然后对构建图像和原始图像的预测进行不变性正则化,以尽量减少它们的冲突,从而迫使模型在各种场景上表现一致。此外,基于判别器的正则化旨在增强连通性,同时保留道路结构。结合这些设计,我们的框架在 DeepGlobe、武汉和马萨诸塞州数据集上展示了卓越的性能,在 IoU 指标上分别比最先进的技术高出 1.47、2.12、4.09,并展示了其即插即用的潜力。

Depth Estimation Algorithm Based on Transformer-Encoder and Feature Fusion
Authors Linhan Xia, Junbang Liu, Tong Wu
这项研究提出了一种基于 Transformer 编码器架构的新型深度估计算法,专为 NYU 和 KITTI 深度数据集量身定制。这项研究采用了最初因其在自然语言处理方面的成功而闻名的变压器模型来捕获视觉数据中复杂的空间关系,以执行深度估计任务。该研究的一个重大创新是集成了将结构相似性指数测量 SSIM 与均方误差 MSE 相结合的复合损失函数。这种组合损失函数旨在通过 SSIM 确保预测深度图相对于原始图像的结构完整性,同时通过 MSE 最小化像素级估计误差。这种研究方法解决了基于 MSE 的损失中常见的过度平滑的挑战,并增强了模型预测深度图的能力,该深度图不仅准确,而且保持与输入图像的结构一致性。

ShapeBoost: Boosting Human Shape Estimation with Part-Based Parameterization and Clothing-Preserving Augmentation
Authors Siyuan Bian, Jiefeng Li, Jiasheng Tang, Cewu Lu
从单目 RGB 图像中准确恢复人体形状是一项具有挑战性的任务,因为人类具有不同的形状和大小并且穿着不同的衣服。在本文中,我们提出了 ShapeBoost,这是一种新的人体形状恢复框架,即使对于罕见的体形也能实现像素级对齐,并且对于穿着不同类型衣服的人也能实现高精度。与之前依赖使用基于 PCA 的形状系数的方法不同,我们采用了一种新的人体形状参数化,将人体形状分解为骨骼长度和每个部分切片的平均宽度。这种基于零件的参数化技术使用半分析形状重建算法实现了灵活性和有效性之间的平衡。基于这种新的参数化,提出了一种服装保存数据增强模块,以生成具有不同身体形状和准确注释的逼真图像。

DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions
Authors Guangrun Wang, Changlin Li, Liuchun Yuan, Jiefeng Peng, Xiaoyu Xian, Xiaodan Liang, Xiaojun Chang, Liang Lin
神经架构搜索NAS旨在由机器自动设计神经架构,被认为是迈向自动机器学习的关键一步。一个值得注意的 NAS 分支是权重共享 NAS,它显着提高了搜索效率,并允许 NAS 算法在普通计算机上运行。尽管受到很高的期望,此类方法的搜索效率较低。通过使用泛化有界工具,我们证明了这个缺点背后的魔鬼是不可信的架构评级以及可能架构的过大搜索空间。为了解决这个问题,我们将大型搜索空间模块化为具有小型搜索空间的块,并利用蒸馏神经架构 DNA 技术开发了一系列模型。这些提出的模型,即 DNA 系列,能够解决权重共享 NAS 的多种困境,例如可扩展性、效率和多模式兼容性。我们提出的 DNA 模型可以对所有候选架构进行评级,而之前的工作只能使用启发式算法访问子搜索空间。此外,在一定的计算复杂度约束下,我们的方法可以寻找具有不同深度和宽度的架构。广泛的实验评估表明,我们的模型在移动卷积网络和小型视觉变压器的 ImageNet 上分别达到了最先进的 top 1 准确率 78.9 和 83.6。此外,我们还提供对神经架构评级的深入实证分析和见解。

NeRF-VPT: Learning Novel View Representations with Neural Radiance Fields via View Prompt Tuning
Authors Linsheng Chen, Guangrun Wang, Liuchun Yuan, Keze Wang, Ken Deng, Philip H.S. Torr
神经辐射场 NeRF 在新颖的视图合成方面取得了显着的成功。尽管如此,为新颖的视角生成高质量图像的任务仍然是一项严峻的挑战。虽然现有的努力已经取得了值得称赞的进展,但捕获复杂的细节、增强纹理以及实现卓越的峰值信噪比 PSNR 指标值得进一步关注和进步。在这项工作中,我们提出了 NeRF VPT,一种新颖的视图合成创新方法来应对这些挑战。我们提出的 NeRF VPT 采用级联视图提示调整范例,其中从先前渲染结果获得的 RGB 信息作为后续渲染阶段的指导性视觉提示,希望提示中嵌入的先验知识可以促进渲染图像质量的逐步增强。 NeRF VPT 只需要从前一阶段渲染中采样 RGB 数据作为每个训练阶段的先验,无需依赖额外的指导或复杂的技术。因此,我们的 NeRF VPT 是即插即用的,可以轻松集成到现有方法中。通过在要求严格的真实场景基准(例如 Realistic Synthetic 360、Real Forward Facing、Replica dataset 和用户捕获的数据集)上对我们的 NeRF VPT 与几种基于 NeRF 的方法进行比较分析,我们证实我们的 NeRF VPT 显着提高了基线性能并熟练地与所有比较的现有技术方法相比,生成更高质量的新颖视图图像。此外,NeRF VPT 的级联学习引入了对稀疏输入场景的适应性,从而显着提高了稀疏视图新颖视图合成的准确性。

TUMTraf V2X Cooperative Perception Dataset
Authors Walter Zimmer, Gerhard Arya Wardana, Suren Sritharan, Xingcheng Zhou, Rui Song, Alois C. Knoll
合作感知为增强自动驾驶汽车的能力和改善道路安全提供了多种好处。除车载传感器外,使用路边传感器可提高可靠性并扩展传感器范围。外部传感器为自动驾驶车辆提供更高的态势感知并防止遮挡。我们提出了 CoopDet3D(一种协作多模态融合模型)和 TUMTraf V2X(感知数据集),用于协作 3D 对象检测和跟踪任务。我们的数据集包含来自五个路边和四个车载传感器的 2,000 个标记点云和 5,000 个标记图像。它包括 30k 个 3D 框,带有轨道 ID 以及精确的 GPS 和 IMU 数据。我们标记了八个类别,并涵盖了具有挑战性驾驶操作的遮挡场景,例如交通违规、未遂事件、超车和掉头。通过多次实验,我们表明,与车载摄像头 LiDAR 融合模型相比,我们的 CoopDet3D 摄像头 LiDAR 融合模型实现了 14.36 3D mAP 的增加。

Image-Based Dietary Assessment: A Healthy Eating Plate Estimation System
Authors Assylzhan Izbassar, Pakizar Shamoi
在过去的两到三十年里,饮食的营养质量显着恶化,人们常常低估了这种下降。这种恶化,加上忙碌的生活方式,导致健康问题不断升级。认识到这个问题,哈佛大学的研究人员提倡采用均衡营养餐盘模式来促进健康。受这项研究的启发,我们的论文介绍了一种创新的基于图像的饮食评估系统,旨在通过图像分析评估膳食的健康程度。我们的系统采用先进的图像分割和分类技术来分析盘子上的食物,评估其比例,并计算膳食是否符合哈佛大学的健康饮食建议。这种方法利用机器学习和营养科学,为个人提供可行的见解,以做出更健康的饮食选择。我们的四步框架包括分割图像、对项目进行分类、根据哈佛健康饮食餐盘研究进行营养评估,并提供量身定制的建议。

Causal Mode Multiplexer: A Novel Framework for Unbiased Multispectral Pedestrian Detection
Authors Taeheon Kim, Sebin Shin, Youngjoon Yu, Hak Gu Kim, Yong Man Ro
RGBT 多光谱行人检测已成为需要昼夜操作的安全关键应用的一种有前景的解决方案。然而,随着多光谱行人检测器学习数据集中的统计偏差,模态偏差问题仍未解决。具体来说,多光谱行人检测中的数据集主要分布在 ROTO 白天和 RXTO 夜间数据之间,大多数行人标签在统计上与其热特征同时出现。因此,多光谱行人检测器在超出这种统计相关性的示例(例如 ROTX 数据)上表现出较差的泛化能力。为了解决这个问题,我们提出了一种新颖的因果模式复用器 CMM 框架,可以有效地学习多光谱输入和预测之间的因果关系。此外,我们构建了一个新的数据集 ROTX MP 来评估多光谱行人检测中的模态偏差。 ROTX MP 主要包括以前数据集中未出现的 ROTX 示例。大量实验表明,我们提出的 CMM 框架可以很好地推广现有数据集 KAIST、CVC 14、FLIR 和新的 ROTX MP。

Fast Low-parameter Video Activity Localization in Collaborative Learning Environments
Authors Venkatesh Jatla, Sravani Teeparthi, Ugesh Egala, Sylvia Celedon Pattichis, Marios S. Patticis
视频活动检测的研究主要集中在识别短视频片段中明确定义的人类活动。视频活动识别的大部分研究都集中在需要对大型视频数据集进行训练的大参数系统的开发上。本文开发了一种具有快速推理能力的低参数模块化系统,可以完全在有限的数据集上进行训练,而不需要从大参数系统进行迁移学习。该系统可以准确地检测特定活动并将其与现实课堂视频中执行该活动的学生关联起来。

Single-image camera calibration with model-free distortion correction
Authors Katia Genovese
相机校准是需要精确定量测量的计算机视觉应用中至关重要的过程。张开发的流行方法依赖于使用以多种姿势捕获的基准点平面网格的大量图像。虽然灵活且易于实施,但张的方法有一些局限性。即使重投影误差相当小,同时优化整个参数集(包括预定义失真模型的系数)也可能导致图像边界处的失真校正效果不佳或内在参数计算错误。事实上,涉及图像拼接的应用程序例如多相机系统需要准确映射失真直至图像的最外层区域。此外,内在参数会影响相机位姿估计的准确性,这对于机器人导航和自动化装配中的视觉伺服等应用至关重要。本文提出了一种从覆盖整个传感器的平面散斑图案的单个图像估计整套校准参数的方法。使用数字图像相关获得图像点和校准目标上的物理点之间的对应关系。在预先评估主点后,分别计算有效焦距和外在参数。在该过程结束时,在整个图像上获得密集且均匀的无模型畸变图。使用不同噪声水平的合成数据来测试该方法的可行性,并与张方法的计量性能进行比较。

SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code
Authors Ziniu Hu, Ahmet Iscen, Aashi Jain, Thomas Kipf, Yisong Yue, David A. Ross, Cordelia Schmid, Alireza Fathi
本文介绍了 SceneCraft,这是一种大型语言模型 LLM 代理,可将文本描述转换为 Blender 可执行 Python 脚本,该脚本可渲染具有多达一百个 3D 资源的复杂场景。这个过程需要复杂的空间规划和布置。我们通过结合先进的抽象、战略规划和图书馆学习来应对这些挑战。 SceneCraft 首先将场景图建模为蓝图,详细说明场景中资源之间的空间关系。然后,SceneCraft 根据该图编写 Python 脚本,将关系转换为资产布局的数字约束。接下来,SceneCraft 利用 GPT V 等视觉语言基础模型的感知优势来分析渲染图像并迭代细化场景。在此过程之上,SceneCraft 具有库学习机制,可将常见脚本函数编译为可重用库,从而促进持续自我改进,而无需昂贵的 LLM 参数调整。我们的评估表明,SceneCraft 在渲染复杂场景方面超越了现有的基于 LLM 的代理,这从它遵守约束和有利的人类评估中可以看出。

Dual Graph Attention based Disentanglement Multiple Instance Learning for Brain Age Estimation
Authors Fanzhe Yan, Gang Yang, Yu Li, Aiping Liu, Xun Chen
深度学习技术已显示出通过分析健康个体的磁共振成像 MRI 数据来准确估计大脑年龄的巨大潜力。然而,当前的大脑年龄估计方法通常直接利用整个输入图像,忽略了两个重要的考虑因素:1 大脑衰老的异质性,其中不同的大脑区域可能以不同的速度退化;2 大脑结构中存在与年龄无关的冗余。为了克服这些限制,我们提出了一种基于双图注意力的解缠多实例学习 DGA DMIL 框架来改进大脑年龄估计。具体来说,3D MRI 数据被视为实例包,被输入到 2D 卷积神经网络主干中,以捕获 MRI 中独特的老化模式。然后提出了双图注意力聚合器,通过利用实例内和实例间关系来学习主干特征。此外,引入解缠结分支将与年龄相关的特征与与年龄无关的结构表示分离,以改善冗余信息对年龄预测的干扰。为了验证所提出框架的有效性,我们在 UK Biobank 和 ADNI 两个数据集上对其进行了评估,总共包含 35,388 名健康个体。我们提出的模型在估计大脑年龄方面表现出极高的准确性,在英国生物银行中实现了 2.12 年的显着平均绝对误差。与其他竞争性大脑年龄估计模型相比,结果表明我们的方法是最先进的。

On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving
Authors Kaituo Feng, Changsheng Li, Dongchun Ren, Ye Yuan, Guoren Wang
配备深度神经网络的端到端运动规划模型已显示出实现完全自动驾驶的巨大潜力。

Benchmarking Segmentation Models with Mask-Preserved Attribute Editing
Authors Zijin Yin, Kongming Liang, Bing Li, Zhanyu Ma, Jun Guo
在实践中部署分割模型时,评估其在各种复杂场景中的行为至关重要。与之前的评估范式的不同之处仅在于考虑了全局属性变化,例如恶劣天气下,我们研究局部和全局属性变化以进行鲁棒性评估。为了实现这一目标,我们构建了一个保留属性编辑管道的掩模来编辑真实图像的视觉属性,并精确控制结构信息。因此,原始分割标签可以重新用于编辑后的图像。使用我们的管道,我们构建了一个涵盖对象和图像属性的基准,例如颜色、材质、图案、风格。我们评估了各种语义分割模型,从传统的封闭集模型到最近的开放词汇大模型,评估它们对不同类型变化的鲁棒性。我们发现局部和全局属性变化都会影响分割性能,并且模型的敏感性在不同变化类型之间存在差异。我们认为局部属性与全局属性具有相同的重要性,并且应该在分割模型的鲁棒性评估中考虑。

REWIND Dataset: Privacy-preserving Speaking Status Segmentation from Multimodal Body Movement Signals in the Wild
Authors Jose Vargas Quiros, Chirag Raman, Stephanie Tan, Ekin Gedik, Laura Cabrera Quiros, Hayley Hung
识别人类说话是理解社交互动的核心任务。理想情况下,可以从个人录音中检测讲话,就像之前在会议场景中所做的那样。然而,由于成本、物流和隐私问题,在野外很难获得个人语音记录,尤其是在拥挤的混合场景中。作为替代方案,基于视频和可穿戴传感器数据训练的机器学习模型可以通过以不引人注目、保护隐私的方式检测相关手势来识别语音。理想情况下,这些模型本身应该使用从语音信号获得的标签进行训练。然而,现有的混合数据集不包含高质量的录音。相反,说话状态注释通常是由人类注释者从视频中推断出来的,而没有根据基于音频的地面事实验证这种方法。在本文中,我们通过展示第一个公开可用的多模态数据集,其中包含专业社交活动中 33 名受试者的高质量个人语音录音,重新审视了无音频说话状态估计。我们提出了无音频说话状态分割的三个基线,a 来自视频,b 来自身体加速度胸部佩戴的加速度计,c 来自身体姿势轨迹。在所有情况下,我们都会预测从音频中提取的 20Hz 二进制说话状态信号,这是以前数据集中不可用的时间分辨率。除了提供评估各种说话状态检测方法所需的信号和基本事实之外,REWIND 中音频的可用性使其适合于以前的混合数据集无法实现的跨模态研究。

Boosting Box-supervised Instance Segmentation with Pseudo Depth
Authors Xinyi Yu, Ling Yan, Pengtao Jiang, Hao Chen, Bo Li, Lin Yuanbo Wu, Linlin Ou
盒子监督下的弱监督实例分割 WSIS 领域引起了广泛关注,近年来取得了显着进展。然而,框监督的局限性变得显而易见,因为它无法提供有效的信息来区分指定目标框中的前景和背景。这项研究通过将伪深度图引入实例分割网络的训练过程来解决这一挑战,从而通过捕获实例之间的深度差异来提高其性能。这些伪深度图是使用现成的深度预测器生成的,并且在推理阶段不是必需的。为了使网络在预测掩模时能够识别深度特征,我们将深度预测层集成到掩模预测头中。这种创新方法使网络能够同时预测掩模和深度,从而增强其在实例分割过程中捕获细致入微的深度相关信息的能力。我们进一步利用训练过程中生成的掩模作为监督来区分前景和背景。在通过匈牙利算法为每个框选择最佳掩模时,我们使用深度一致性作为一项计算成本项。

TCIG: Two-Stage Controlled Image Generation with Quality Enhancement through Diffusion
Authors Salaheldin Mohamed
近年来,文本到图像生成模型的开发取得了重大进展。然而,这些模型在实现生成过程的完全可控性方面仍然面临局限性。通常,需要特定的训练或使用有限的模型,即使这样,它们也有一定的限制。为了应对这些挑战,提出了一种有效结合图像生成的可控性和高质量的两阶段方法。这种方法利用预训练模型的专业知识来实现​​对生成图像的精确控制,同时还利用扩散模型的力量来实现最先进的质量。通过将可控性与高质量分开,该方法取得了出色的结果。它与潜在模型和图像空间扩散模型兼容,确保了多功能性和灵活性。此外,这种方法始终能产生与该领域当前最先进方法相当的结果。

SAR-AE-SFP: SAR Imagery Adversarial Example in Real Physics domain with Target Scattering Feature Parameters
Authors Jiahao Cui, Jiale Duan, Binyan Luo, Hang Cao, Wang Guo, Haifeng Li
基于深度神经网络的合成孔径雷达 SAR 目标识别模型容易受到对抗性示例的影响。当前 SAR 图像的对抗性示例生成方法主要在 2D 数字域中运行,称为图像对抗性示例。最近的工作虽然考虑了 SAR 成像散射机制,但未能考虑实际的成像过程,导致三维物理域中的攻击不可行,称为伪物理对抗示例。为了应对这些挑战,本文提出了 SAR AE SFP Attack,一种通过改变目标物体的散射特征参数来生成真实物理对抗示例的方法。具体来说,我们通过扰动三维目标物体散射特征参数中的反射系数和散射系数来迭代优化目标回波的相干能量积累,并在RaySAR模拟器中经过回波信号处理和成像处理后得到对抗样本。

Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning
Authors Shuo Yang, Zirui Shang, Yongqi Wang, Derong Deng, Hongwei Chen, Qiyuan Cheng, Xinxiao Wu
本文提出了一种无需任何训练数据的多标签图像识别新框架,称为无数据框架,该框架使用预训练的大型语言模型 LLM 的知识来学习提示,以将预训练的视觉语言模型 VLM(如 CLIP)适应多标签分类。通过精心设计的问题向法学硕士提出问题,我们获得了有关物体特征和上下文的全面知识,这为学习提示提供了有价值的文本描述。然后,我们通过考虑多标签依赖性提出了一种分层提示学习方法,其中当相应对象表现出相似属性或更可能同时出现时,共享类别特定提示标记的子集。受益于 CLIP 的视觉和语言语义之间的显着一致性,从文本描述中学习到的分层提示可用于在推理过程中对图像进行分类。我们的框架提供了一种新的方法来探索多个预训练模型之间的协同作用以进行新的类别识别。

Leveraging Self-Supervised Learning for Scene Recognition in Child Sexual Abuse Imagery
Authors Pedro H. V. Valois, Jo o Macedo, Leo S. F. Ribeiro, Jefersson A. dos Santos, Sandra Avila
21世纪的犯罪分为虚拟世界和现实世界。然而,前者已成为对后者人民福祉和安全的全球性威胁。必须通过全球统一合作来应对它带来的挑战,我们必须比以往任何时候都更加依赖自动化但值得信赖的工具来打击日益增长的网络犯罪。每年有超过 1000 万份儿童性虐待报告提交给美国国家失踪受虐儿童中心,其中 80 多份报告来自网络。因此,调查中心和信息交换所无法手动处理和正确调查所有图像。有鉴于此,能够安全有效地处理这些数据的可靠自动化工具至关重要。从这个意义上说,场景识别任务寻找环境中的上下文线索,能够对儿童性虐待数据进行分组和分类,而无需接受敏感材料的培训。处理儿童性虐待图像的稀缺性和局限性导致了自我监督学习,这是一种机器学习方法,利用未标记的数据来产生强大的表示,可以更容易地转移到目标任务。这项工作表明,在以场景为中心的数据上预先训练的自监督深度学习模型在我们的室内场景分类任务上可以达到 71.6 的平衡精度,平均比完全监督版本的性能提高 2.2 个百分点。我们与巴西联邦警察专家合作,评估我们针对实际虐待儿童材料的室内分类模型。

Consistent and Asymptotically Statistically-Efficient Solution to Camera Motion Estimation
Authors Guangyang Zeng, Qingcheng Zeng, Xinghan Li, Biqiang Mu, Jiming Chen, Ling Shi, Junfeng Wu
给定图像对之间的 2D 点对应关系,推断相机运动是计算机视觉社区中的一个基本问题。现有的工作一般从极线约束出发,估计本质矩阵,这在最大似然ML意义上并不是最优的。在本文中,我们深入研究了关于旋转矩阵和归一化平移向量的原始测量模型,并制定了机器学习问题。然后,我们提出一个两步算法来解决这个问题。第一步,我们估计测量噪声的方差,并设计一个基于偏差消除的一致估计器。第二步,我们在流形上执行一步高斯牛顿迭代,以细化一致的估计。估计。我们证明所提出的估计具有与 ML 估计相同的渐近统计特性。第一个是一致性,即随着点数的增加,估计收敛到真实值第二个是渐近效率,即估计的均方误差收敛到理论下界 Cramer Rao 界。此外,我们表明我们的算法具有线性时间复杂度。这些吸引人的特征使我们的估计器在密集点对应的情况下具有很大的优势。

Run-time Introspection of 2D Object Detection in Automated Driving Systems Using Learning Representations
Authors Hakan Yekta Yatbaz, Mehrdad Dianati, Konstantinos Koufos, Roger Woodman
可靠地检测周围环境中的各种物体和道路使用者对于自动驾驶系统ADS的安全运行至关重要。尽管最近在开发基于深度神经网络 DNN 的高精度物体检测器方面取得了进展,但它们仍然容易出现检测错误,这可能会在 ADS 等安全关键应用中导致致命后果。解决这个问题的有效方法是为系统配备运行时监控,在自治系统的背景下称为内省。受此启发,我们引入了一种新颖的自省解决方案,该解决方案在帧级别运行,用于基于 DNN 的 2D 对象检测,并利用神经网络激活模式。所提出的方法使用几种不同的模式预处理对象检测器主干的神经激活模式。为了提供广泛的比较分析和公平比较,我们还使用在 KITTI 和 BDD 数据集上评估的一级和两级对象检测器,采用并实现了几种最先进的 SOTA 内省机制,用于 2D 对象检测中的错误检测。我们比较了所提出的解决方案在错误检测、数据集转换的适应性以及计算和内存资源要求方面的性能。

Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection
Authors Chenchen Tao, Chong Wang, Yuexian Zou, Xiaohao Peng, Jiafei Wu, Jiangbo Qian
大多数弱监督视频异常检测 WS VAD 模型都依赖于多实例学习,旨在区分正常和异常片段,而不指定异常类型。跨上下文的异常定义的模糊性会在检测异常包内的异常和正常片段时引入偏差。第一步向模型展示其异常的原因,提出了一个新颖的框架来指导从事件提示中学习可疑异常。给定潜在异常事件的文本提示字典和异常视频生成的字幕,可以计算它们之间的语义异常相似度,以识别每个视频片段的可疑异常事件。它支持新的多提示学习过程来约束所有视频的视觉语义特征,并提供一种标记伪异常以进行自我训练的新方法。为了证明有效性,在 XD Violence、UCF Crime、TAD 和 ShanghaiTech 这四个数据集上进行了全面的实验和详细的消融研究。我们提出的模型在 AP 或 AUC 82.6、87.7、93.1 和 97.4 方面优于大多数最先进的方法。

Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised Semantic Segmentation
Authors Lian Xu, Mohammed Bennamoun, Farid Boussaid, Wanli Ouyang, Ferdous Sohel, Dan Xu
大多数现有的弱监督语义分割 WSSS 方法依赖类激活映射 CAM 使用图像级标签提取粗略的类特定定位图。先前的工作通常使用离线启发式阈值处理,该过程将 CAM 图与由通用预训练显着性模型生成的现成显着性图相结合,以产生更准确的伪分割标签。我们提出了 AuxSegNet,一个弱监督的辅助学习框架,用于探索这些显着性图中的丰富信息以及显着性检测和语义分割之间的显着任务间相关性。在提出的 AuxSegNet 中,显着性检测和多标签图像分类被用作辅助任务,以仅使用图像级地面实况标签来改进语义分割的主要任务。我们还提出了一种跨任务亲和力学习机制,用于从显着性和分割特征图中学习像素级亲和力。特别是,我们提出了一个跨任务双亲和力学习模块来学习成对和一元亲和力,它们用于通过聚合显着性检测和语义分割的查询相关和查询独立的全局上下文来增强任务特定的特征和预测。学习到的跨任务成对亲和力还可以用于细化和传播 CAM 映射,以为这两个任务提供更好的伪标签。通过跨任务亲和力学习和伪标签更新来实现分割性能的迭代改进。

Edge-guided Low-light Image Enhancement with Inertial Bregman Alternating Linearized Minimization
Authors Chaoyan Huang, Zhongming Wu, Tieyong Zeng
基于先验的低光图像增强方法通常面临着从暗淡图像中提取可用先验信息的挑战。为了克服这个限制,我们引入了一个简单而有效的 Retinex 模型,该模型具有所提出的边缘提取先验。更具体地说,我们设计了一个边缘提取网络来直接从低光图像中捕获精细边缘特征。基于 Retinex 理论,我们将低光图像分解为其照明和反射分量,并引入边缘引导 Retinex 模型来增强低光图像。为了求解所提出的模型,我们提出了一种新颖的惯性 Bregman 交替线性化最小化算法。该算法解决了与边缘引导 Retinex 模型相关的优化问题,能够有效增强低光图像。通过严格的理论分析,我们建立了算法的收敛特性。此外,我们通过非凸优化理论证明了所提出的算法收敛到问题的驻点。

Neural radiance fields-based holography [Invited]
Authors Minsung Kang, Fan Wang, Kai Kumano, Tomoyoshi Ito, Tomoyoshi Shimobaba
本研究提出了一种基于神经辐射场 NeRF 技术生成全息图的新方法。在全息图计算中生成三维 3D 数据很困难。 NeRF 是一种基于体渲染从 2D 图像重建 3D 光场的最先进技术。 NeRF 可以快速预测不包含训练数据集的新视图图像。在这项研究中,我们直接根据 NeRF 从 2D 图像生成的 3D 光场构建了渲染管道,以便在合理的时间内使用深度神经网络生成全息图。该管道包含三个主要组件:NeRF、深度预测器和全息图生成器,全部使用深度神经网络构建。该管道不包括任何物理计算。使用所提出的管道计算从任何方向观看的 3D 场景的预测全息图。

Dynamic 3D Point Cloud Sequences as 2D Videos
Authors Yiming Zeng, Junhui Hou, Qijian Zhang, Siyu Ren, Wenping Wang
动态 3D 点云序列是动态现实世界环境最常见、最实用的表示方式之一。然而,它们在空间和时间域上的非结构化性质对有效和高效的处理提出了重大挑战。现有的深度点云序列建模方法通过开发复杂的时空点邻居分组和特征聚合方案来模仿成熟的2D视频学习机制,通常导致方法缺乏有效性、效率和表达能力。在本文中,我们提出了一种新颖的通用表示形式,称为 textit 结构化点云视频 SPCV。直观地说,利用 3D 几何形状本质上是 2D 流形这一事实,SPCV 将点云序列重新组织为具有空间平滑性和时间一致性的 2D 视频,其中像素值对应于点的 3D 坐标。我们的 SPCV 表示的结构化性质允许无缝适应成熟的 2D 图像视频技术,从而实现 3D 点云序列的高效且有效的处理和分析。为了实现这种重新组织,我们设计了一个自监督学习管道,该管道是几何正则化的,并由自重建和变形场学习目标驱动。此外,我们还构建了基于 SPCV 的框架,用于低级和高级 3D 点云序列处理和分析任务,包括动作识别、时间插值和压缩。大量的实验证明了所提出的 SPCV 的多功能性和优越性,它有可能为非结构化 3D 点云序列的深度学习提供新的可能性。

Text-guided Explorable Image Super-resolution
Authors Kanchana Vaishnavi Gandikota, Paramanand Chandramouli
在本文中,我们介绍了开放域图像超分辨率解决方案的零镜头文本引导探索问题。我们的目标是允许用户探索多样化的、语义上准确的重建,从而保持数据与不同大下采样因子的低分辨率输入的一致性,而无需针对这些特定的退化进行明确的训练。我们提出了两种零样本文本引导超分辨率方法:i 修改文本到图像文本 T2I 扩散模型的生成过程,以促进与低分辨率输入的一致性;ii 将语言指导纳入基于零样本扩散的恢复方法。我们表明,所提出的方法产生了多种解决方案,这些解决方案与文本提示提供的语义相匹配,同时保持数据与降级输入的一致性。

ELA: Efficient Local Attention for Deep Convolutional Neural Networks
Authors Wei Xu, Yi Wan
注意力机制由于能够有效增强深度神经网络的性能而在计算机视觉领域获得了显着的认可。然而,现有的方法通常难以有效地利用空间信息,或者即使有效利用空间信息,也会以减少通道维度或增加神经网络的复杂性为代价。为了解决这些限制,本文引入了一种高效局部注意力 ELA 方法,该方法以简单的结构实现了显着的性能提升。通过分析坐标注意力方法的局限性,我们发现了Batch Normalization缺乏泛化能力、降维对通道注意力的不利影响以及注意力生成过程的复杂性。为了克服这些挑战,我们建议结合一维卷积和组归一化特征增强技术。该方法通过有效地编码两个一维位置特征图来实现感兴趣区域的精确定位,无需降维,同时允许轻量级实现。我们精心设计了 ELA 中的三个超参数,产生了四个不同的版本 ELA T、ELA B、ELA S 和 ELA L,以满足图像分类、目标检测和语义分割等不同视觉任务的具体要求。 ELA可以无缝集成到ResNet、MobileNet和DeepLab等深度CNN网络中。

Adversarial Testing for Visual Grounding via Image-Aware Property Reduction
Authors Zhiyuan Chang, Mingyang Li, Junjie Wang, Cheng Li, Boyu Wu, Fanjiang Xu, Qing Wang
由于融合来自不同模态的信息的优势,多模态学习越来越受到关注。作为多模态学习的一项基本任务,Visual Grounding VG 旨在通过自然语言表达来定位图像中的对象。由于任务的复杂性,确保 VG 模型的质量面临着巨大的挑战。在黑盒场景中,现有的对抗性测试技术通常无法充分利用这两种信息模式的潜力。他们通常仅根据图像或文本信息应用扰动,而忽略两种模式之间的关键相关性,这将导致测试预言失败或无法有效挑战 VG 模型。为此,我们提出了 PEELING,一种通过图像感知属性减少的文本扰动方法,用于 VG 模型的对抗性测试。其核心思想是减少原始表达中的属性相关信息,同时保证减少后的表达仍然能够唯一地描述图像中的原始对象。为了实现这一点,PEELING 首先进行对象和属性提取和重组,以生成候选属性约简表达式。然后,通过使用视觉理解技术查询图像,选择准确描述原始对象的满意表达式,同时确保图像中没有其他对象满足该表达式。我们在最先进的 VG 模型(即 OFA VG)上评估 PEELING,涉及三个常用数据集。

Face Swap via Diffusion Model
Authors Feifei Wang
该技术报告提出了一种基于扩散模型的框架,用于两个肖像图像之间的面部交换。基本框架由三个组件组成,即IP Adapter、ControlNet和Stable Diffusion修复管道,分别用于人脸特征编码、多条件生成和人脸修复。

Depth Information Assisted Collaborative Mutual Promotion Network for Single Image Dehazing
Authors Yafei Zhang, Shen Zhou, Huafeng Li
从单个模糊图像中恢复清晰图像是一个开放的逆问题。尽管已经取得了重大的研究进展,但大多数现有方法忽略了下游任务在促进上游去雾中所发挥的作用。从雾霾生成机制的角度来看,场景的深度信息与雾霾图像之间存在潜在的关系。基于此,我们提出了双任务协同相互促进框架来实现单个图像的去雾。该框架通过双任务交互机制将深度估计和去雾集成在一起,实现了两者性能的相互增强。为了实现这两个任务的联合优化,开发了一种具有差异感知的替代执行机制。一方面,提出了去雾结果的深度图与理想图像之间的差异感知,以促进去雾网络关注去雾的非理想区域。另一方面,通过提高有雾图像难以恢复区域的深度估计性能,去雾网络可以明确地使用有雾图像的深度信息来辅助清晰图像恢复。为了促进深度估计,我们建议利用去雾图像与地面实况之间的差异来引导深度估计网络聚焦于去雾的不理想区域。它允许去雾和深度估计以相辅相成的方式发挥各自的优势。

Beyond Night Visibility: Adaptive Multi-Scale Fusion of Infrared and Visible Images
Authors Shufan Pei, Junhong Lin, Wenxi Liu, Tiesong Zhao, Chia Wen Lin
除了弱光之外,夜间图像还会因眩光、泛光灯等光效应而降低质量。然而,现有的夜间能见度增强方法普遍关注弱光区域,忽略甚至放大了光效应。为了解决这个问题,我们提出了一种具有红外和可见光图像的自适应多尺度融合网络AMFusion,它根据不同的照明区域设计融合规则。首先,我们分别融合红外和可见光图像的空间特征和语义特征,前者用于调整光分布,后者用于提高检测精度。由此,我们获得了没有弱光和光效应的图像,从而提高了夜间物体检测的性能。其次,我们利用预先训练的主干提取的检测特征来指导语义特征的融合。因此,我们设计了一个检测引导的语义融合模块 DSFM,以弥合检测和语义特征之间的领域差距。第三,我们提出了一种新的照明损失来约束具有正常光强度的融合图像。实验结果证明了 AMFusion 的优越性,具有更好的视觉质量和检测精度。

Extracting Usable Predictions from Quantized Networks through Uncertainty Quantification for OOD Detection
Authors Rishi Singhal, Srinath Srinivasan
随着网络设计的进步和​​任务复杂性的增加,OOD 检测变得更加相关。识别给定网络的数据的哪些部分被错误分类已经变得与网络的整体性能一样有价值。我们可以通过量化来压缩模型,但它的性能损失很小。性能损失进一步需要导出网络预测的置信度估计。根据这种想法,我们引入了不确定性量化 UQ 技术来量化预先训练的视觉模型的预测的不确定性。随后,我们利用这些信息来提取有价值的预测,同时忽略不可信的预测。我们观察到,我们的技术可以避免多达 80 个被忽略的样本被错误分类。

Neural Field Classifiers via Target Encoding and Classification Loss
Authors Xindi Yang, Zeke Xie, Xiong Zhou, Boyu Liu, Buhua Liu, Yi Liu, Haoran Wang, Yunfeng Cai, Mingming Sun
神经场方法在计算机视觉和计算机图形学的各种长期任务中取得了巨大进展,包括新颖的视图合成和几何重建。由于现有的神经场方法试图预测一些基于坐标的连续目标值,例如神经辐射场 NeRF 的 RGB,所有这些方法都是回归模型,并通过一些回归损失进行优化。然而,回归模型真的比神经领域方法的分类模型更好吗?在这项工作中,我们尝试从机器学习的角度来探讨这个非常基本但被忽视的神经领域问题。我们成功提出了一种新颖的神经场分类器 NFC 框架,它将现有的神经场方法制定为分类任务而不是回归任务。通过采用新颖的目标编码模块并优化分类损失,所提出的 NFC 可以轻松地将任意神经场回归器 NFR 转换为其分类变体。通过将连续回归目标编码为高维离散编码,我们自然地制定了多标签分类任务。大量的实验证明了 NFC 的有效性令人印象深刻,并且几乎不需要额外的计算成本。

G3DR: Generative 3D Reconstruction in ImageNet
Authors Pradyumna Reddy, Ismail Elezi, Jiankang Deng
我们在 ImageNet 中引入了一种新颖的 3D 生成方法,即生成 3D 重建 G3DR,能够从单个图像生成多样化且高质量的 3D 对象,解决了现有方法的局限性。我们框架的核心是一种新颖的深度正则化技术,可以生成具有高几何保真度的场景。 G3DR 还利用预训练的语言视觉模型(例如 CLIP)来实现新视图中的重建并提高几代人的视觉真实感。此外,G3DR 设计了一个简单但有效的采样程序,以进一步提高世代质量。 G3DR 基于类或文本条件提供多样化且高效的 3D 资产生成。尽管它很简单,但 G3DR 能够击败最先进的方法,在感知指标上比它们提高了 22 倍,在几何分数上比它们提高了 90 倍,同时只需要一半的训练时间。

Twisting Lids Off with Two Hands
Authors Toru Lin, Zhao Heng Yin, Haozhi Qi, Pieter Abbeel, Jitendra Malik
用两只多指手操纵物体一直是机器人技术中长期存在的挑战,这归因于许多操纵任务的接触丰富性以及协调高维双手系统固有的复杂性。在这项工作中,我们考虑了用两只手扭转各种瓶子类物体的盖子的问题,并证明使用深度强化学习进行模拟训练的策略可以有效地转移到现实世界。凭借对物理建模、实时感知和奖励设计的新颖工程见解,该策略展示了跨各种看不见的物体的泛化能力,展示了动态和灵巧的行为。

Gradient Correlation Subspace Learning against Catastrophic Forgetting
Authors Tammuz Dubnov, Vishal Thengane
高效的持续学习技术一直是过去几年中重要研究的主题。这种学习的一个基本问题是先前学习任务的表现严重下降,也称为灾难性遗忘。本文介绍了一种在增量类学习背景下减少灾难性遗忘的新方法,称为梯度相关子空间学习 GCSL。该方法检测受先前任务影响最小的权重子空间,并将用于训练新任务的权重投影到所述子空间中。该方法可以应用于给定网络架构的一层或多层,并且所使用的子空间的大小可以随着层和任务的不同而改变。

Bayesian Uncertainty Estimation by Hamiltonian Monte Carlo: Applications to Cardiac MRI Segmentation
Authors Yidong Zhao, Joao Tourais, Iain Pierce, Christian Nitsche, Thomas A. Treibel, Sebastian Weing rtner, Artur M. Schweidtmann, Qian Tao
基于深度学习 DL 的方法已经在各种医学图像分割任务中实现了最先进的性能。然而,最近的研究表明,深度神经网络 DNN 可能会被错误校准和过度自信,从而导致无声的失败,这对临床应用来说是有风险的。贝叶斯统计提供了一种基于后验概率估计的直观的深度学习故障检测方法。然而,贝叶斯深度学习,特别是后验估计,对于大型医学图像分割 DNN 来说很棘手。为了应对这一挑战,我们提出了一种由哈密顿蒙特卡罗 HMC 构建的贝叶斯学习框架,通过冷后验 CP 进行调整以适应医疗数据增强,称为 HMC CP。对于 HMC 计算,我们进一步提出了一种循环退火策略,该策略捕获后验分布的局部和全局几何形状,从而实现高效的贝叶斯 DNN 训练,其计算预算要求与训练单个 DNN 相同。由此产生的贝叶斯 DNN 输出整体分割以及分割不确定性。

Harnessing Intra-group Variations Via a Population-Level Context for Pathology Detection
Authors P. Bilha Githinji, Xi Yuan, Zhenglin Chen, Ijaz Gul, Dingqi Shang, Wen Liang, Jianming Deng, Dan Zeng, Dongmei yu, Chenggang Yan, Peiwu Qin
实现健康样本和病理样本分布之间的足够可分离性是病理检测卷积模型的关键障碍。此外,这些模型对基于对比度的图像表现出偏差,而在基于纹理的医学图像上的性能下降。这项研究引入了用于病理检测的群体水平背景的概念,并采用图论方法进行建模,并通过我们称为 PopuSense 的细化模块将其合并到自动编码器的潜在代码中。 PopuSense 试图捕获生物医学数据中固有的额外组内变化,而卷积模型的局部或全局上下文可能会错过或平滑这些变化。基于对比度和基于纹理的图像的实验,在最小的适应下,遇到了对基于强度的输入的现有偏好。

Neural Redshift: Random Networks are not Random Functions
Authors Damien Teney, Armand Nicolicioiu, Valentin Hartmann, Ehsan Abbasnejad
我们对神经网络 NN 泛化能力的理解仍然不完整。流行的解释基于梯度下降 GD 的隐式偏差,但它们无法解释无梯度方法模型的功能,也无法解释最近在未经训练的网络中观察到的简单性偏差。

Interpretable Models for Detecting and Monitoring Elevated Intracranial Pressure
Authors Darryl Hannan, Steven C. Nesbit, Ximing Wen, Glen Smith, Qiao Zhang, Alberto Goffi, Vincent Chan, Michael J. Morris, John C. Hunninghake, Nicholas E. Villalobos, Edward Kim, Rosina O. Weber, Christopher J. MacLellan
检测颅内压升高对于诊断和治疗各种神经系统疾病至关重要。这些压力波动会传输到视神经鞘 ONS,导致其直径发生变化,然后可以使用超声成像设备进行检测。然而,解读 ONS 的超声图像可能具有挑战性。在这项工作中,我们提出了两个系统,可以在整个超声视频中主动监测 ONS 直径,并最终预测 ICP 是否升高。为了构建我们的系统,我们利用主题专家 SME 的指导,根据他们的收集程序构建我们的处理管道,同时还优先考虑可解释性和计算效率。我们进行了许多实验,证明我们提出的系统能够超越各种基线。

Domain adaptation, Explainability & Fairness in AI for Medical Image Analysis: Diagnosis of COVID-19 based on 3-D Chest CT-scans
Authors Dimitrios Kollias, Anastasios Arsenos, Stefanos Kollias
本文介绍了 DEF AI MIA COV19D 竞赛,该竞赛是在 2024 年计算机视觉和模式识别 CVPR 会议的医学图像分析人工智能领域适应、可解释性和公平性 DEF AI MIA 研讨会框架下组织的。此次比赛是该系列比赛的第四次,前三届比赛分别在 ICCV 2021、ECCV 2022 和 ICASSP 2023 国际会议框架下举办。它包括关于 i Covid 19 检测和 ii Covid 19 域适应的两项挑战。比赛使用论文中描述的COV19 CT DB数据库的数据,该数据库包含大量胸部CT扫描系列。每个胸部 CT 扫描系列由一系列 2 D CT 切片组成,其数量在 50 到 700 个之间。训练、验证和测试数据集已从 COV19 CT DB 中提取,并提供给两项挑战赛的参与者。

REAL-Colon: A dataset for developing real-world AI applications in colonoscopy
Authors Carlo Biffi, Giulio Antonelli, Sebastian Bernhofer, Cesare Hassan, Daizen Hirata, Mineo Iwatate, Andreas Maieron, Pietro Salvagnini, Andrea Cherubini
结肠息肉的检测和诊断是预防结直肠癌的关键。最近的证据表明,基于人工智能的计算机辅助检测 CADe 和计算机辅助诊断 CADx 系统可以提高内窥镜医师的表现并提高结肠镜检查的有效性。然而,大多数可用的公共数据集主要由静态图像或视频剪辑组成,通常采用下采样分辨率,并且不能准确代表现实世界的结肠镜检查程序。我们引入了 REAL Colon 真实世界多中心内窥镜检查注释视频库数据集,该数据集是来自多个中心的 60 个全分辨率真实世界结肠镜检查记录的 270 万个本机视频帧的汇编。该数据集包含 35 万个边界框注释,每个注释都是在胃肠病专家的监督下创建的。每个视频中还包含全面的患者临床数据、结肠镜检查采集信息和息肉组织病理学信息。凭借其前所未有的规模、质量和异质性,REAL Colon 数据集对于旨在推进结肠镜检查人工智能研究的研究人员和开发人员来说是一种独特的资源。

Position Paper: Towards Implicit Prompt For Text-To-Image Models
Authors Yue Yang, Yuqi lin, Hong Liu, Wenqi Shao, Runjian Chen, Hailong Shang, Yu Wang, Yu Qiao, Kaipeng Zhang, Ping Luo
最近的文本到图像 T2I 模型取得了巨大成功,并且提出了许多基准来评估其性能和安全性。然而,他们只考虑显式提示,而忽略暗示目标而未明确提及的隐式提示。这些提示可能会摆脱安全约束,并对这些模型的应用构成潜在威胁。本立场文件强调了 T2I 模型在隐式提示方面的当前状态。我们提出了一个名为 ImplicitBench 的基准测试,并使用流行的 T2I 模型对隐式提示的性能和影响进行了调查。具体来说,我们设计并收集了通用符号、名人隐私和不安全工作 NSFW 问题三个方面的 2000 多个隐式提示,并在这些隐式提示下评估了六种众所周知的 T2I 模型的能力。实验结果表明 1 T2I 模型能够准确创建隐式提示所指示的各种目标符号 2 隐式提示给 T2I 模型带来了潜在的隐私泄露风险。 3 大多数评估的 T2I 模型中的 NSFW 约束可以通过隐式提示绕过。

Iterative Occlusion-Aware Light Field Depth Estimation using 4D Geometrical Cues
Authors Rui Louren o, Lucas Thomaz, Eduardo A. B. Silva, Sergio M. M. Faria
光场相机和多相机阵列已成为通过被动捕获光信息来准确估计深度的有前途的解决方案。这是可能的,因为场景的 3D 信息嵌入在 4D 光场几何结构中。通常,深度估计方法依赖于梯度信息、基于启发式的优化模型或基于学习的方法来提取该信息。本文主要侧重于明确理解和利用 4D 几何线索进行光场深度估计。因此,提出了一种基于非学习的深度估计优化方法的新颖方法,该方法通过利用光场的完全可解释的 4D 几何模型明确考虑表面法线精度和遮挡区域。 4D模型通过确定方向并分析4D空间中关键2D平面的交集来执行深度视差估计,这些关键2D平面是4D光场中3D空间点的图像。实验结果表明,所提出的方法在表面法线角度精度方面优于基于学习和非学习的现有技术方法,在平面上实现的中值角度误差平均比现有技术低 26.3,并且

TTA-Nav: Test-time Adaptive Reconstruction for Point-Goal Navigation under Visual Corruptions
Authors Maytus Piriyajitakonkij, Mingfei Sun, Mengmi Zhang, Wei Pan
视觉损坏下的机器人导航提出了巨大的挑战。为了解决这个问题,我们提出了一种测试时间适应 TTA 方法,称为 TTA Nav,用于视觉损坏下的点目标导航。我们的即插即用方法将自上而下的解码器与预先训练的导航模型结合起来。首先,预先训练的导航模型获取损坏的图像并提取特征。其次,自上而下的解码器根据预训练模型提取的高级特征进行重建。然后,它将损坏图像的重建反馈给预先训练的模型。最后,预训练的模型再次前向传递以输出动作。尽管仅在干净图像上进行训练,但自上而下的解码器可以从损坏的图像中重建更干净的图像,而不需要基于梯度的适应。带有自上而下解码器的预训练导航模型显着增强了基准测试中几乎所有视觉损坏的导航性能。我们的方法将点目标导航的成功率从最先进的结果 46 提高到 94(在最严重的损坏情况下)。

Advancing Gene Selection in Oncology: A Fusion of Deep Learning and Sparsity for Precision Gene Selection
Authors Akhila Krishna, Ravi Kant Gupta, Pranav Jeevan, Amit Sethi
基因选择在肿瘤学研究中发挥着关键作用,可提高结果预测的准确性并促进癌症患者的经济有效的基因组分析。本文介绍了基于深度学习的生存预测模型的两种基因选择策略。第一个策略使用稀疏诱导方法,而第二个策略使用基于重要性的基因选择来识别相关基因。我们的整体方法利用深度学习的力量来建模复杂的生物数据结构,而稀疏性诱导方法确保选择过程集中在信息最丰富的基因上,最大限度地减少噪音和冗余。通过对不同基因组和生存数据集的全面实验,我们证明我们的策略不仅可以识别对生存结果具有高预测能力的基因特征,而且还可以简化低成本基因组分析的过程。这项研究的意义深远,因为它为推进个性化医疗和靶向癌症治疗提供了可扩展且有效的工具。

Map-aided annotation for pole base detection
Authors Benjamin Missaoui Heudiasyc , Maxime Noizet Heudiasyc , Philippe Xu Heudiasyc
对于自主导航,高清地图是广泛使用的信息源。高清地图中编码的杆状特征(例如交通标志、交通灯或路灯)可以用作定位的地标。为此,车辆首先需要使用其嵌入式传感器来检测它们。虽然几何模型可用于处理激光雷达传感器检索到的 3D 点云,但基于图像的现代方法依赖于深度神经网络,因此严重依赖于带注释的训练数据。在本文中,使用二维高清地图自动注释图像中的杆状特征。在没有高度信息的情况下,地图特征被表示为地面的极基。我们展示了如何使用额外的激光雷达传感器来过滤掉被遮挡的特征并细化地面投影。我们还演示了如何训练对象检测器来检测杆基。为了评估我们的方法,首先使用语义分割手动注释的数据进行验证,然后与我们在法国贡比涅市记录的自动生成的注释数据进行比较。勘误 在原始版本1中,对所研究的不同模型的准确度评估出现了错误,并且对检测结果应用的评估方法没有明确定义。

AiSDF: Structure-aware Neural Signed Distance Fields in Indoor Scenes
Authors Jaehoon Jang, Inha Lee, Minje Kim, Kyungdon Joo
我们生活的室内场景在视觉上是同质的或无纹理的,但它们本质上具有结构形式,并为 3D 场景重建提供足够的结构先验。受此事实的启发,我们提出了一种室内场景中的结构感知在线符号距离场 SDF 重建框架,特别是在亚特兰大世界 AW 假设下。因此,我们将 AW 的增量 SDF 重建称为 AiSDF。在在线框架内,我们推断给定场景的底层亚特兰大结构,然后估计支持亚特兰大结构的平面面元区域。这种亚特兰大感知面元表示为给定场景提供了明确的平面地图。此外,基于这些亚特兰大平面面元区域,我们自适应地采样并约束 SDF 重建中的结构规律,这使我们能够通过保持高级结构同时增强给定场景的细节来提高重建质量。

NASH: Neural Architecture Search for Hardware-Optimized Machine Learning Models
Authors Mengfei Ji, Zaid Al Ars
随着机器学习 ML 算法在越来越多的应用程序中部署,这些算法需要在高精度、高吞吐量和低延迟之间实现更好的权衡。本文介绍了 NASH,一种将神经架构搜索应用于机器学习硬件的新颖方法。使用NASH,硬件设计不仅可以实现高吞吐量和低延迟,而且可以实现卓越的准确性性能。我们在本文中提出了 NASH 策略的四个版本,所有版本都比原始模型具有更高的准确性。该策略可以应用于各种卷积神经网络,从众多模型操作中选择特定的模型操作来指导训练过程向更高的精度迈进。实验结果表明,在 ImageNet 数据集上测试时,与非 NASH 版本相比,在 ResNet18 或 ResNet34 上应用 NASH 实现了 top 1 准确率提升高达 3.1,top 5 准确率提升高达 2.2。我们还将这种方法集成到 FINN 硬件模型综合工具中,以自动应用我们的方法并生成硬件模型。结果表明,使用 FINN 可以实现 324.5 fps 的最大吞吐量。此外,NASH 模型还可以在准确性和硬件资源利用率之间实现更好的权衡。准确性硬件 HW Pareto 曲线显示,具有四个 NASH 版本的模型代表了在给定硬件利用率下实现最高准确性的最佳权衡。

NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models
Authors Lizhou Fan, Wenyue Hua, Xiang Li, Kaijie Zhu, Mingyu Jin, Lingyao Li, Haoyang Ling, Jinkui Chi, Jindong Wang, Xin Ma, Yongfeng Zhang
了解多模态大型语言模型 MLLM 的推理能力是一个重要的研究领域。在本研究中,我们引入了一个动态基准 NPHardEval4V,旨在解决评估 MLLM 纯推理能力方面的现有差距。我们的基准测试旨在提供一个场所,将图像识别和指令遵循等各种因素的影响与模型的整体性能分开,使我们能够专注于评估它们的推理能力。我们的研究结果揭示了不同模型的推理能力存在显着差异,并强调了 MLLM 与 LLM 相比在推理方面的表现相对较弱。我们还研究了不同提示风格(包括视觉、文本以及视觉和文本组合提示)对 MLLM 推理能力的影响,展示了多模式输入对模型性能的不同影响。与主要侧重于静态评估的传统基准不同,我们的基准将每月更新,以防止过度拟合并确保对模型进行更准确的评估。我们相信这个基准可以帮助理解和指导 MLLM 推理能力的进一步发展。

Improving Visual Perception of a Social Robot for Controlled and In-the-wild Human-robot Interaction
Authors Wangjie Zhong, Leimin Tian, Duy Tho Le, Hamid Rezatofighi
社交机器人通常依靠视觉感知来了解用户和环境。计算机视觉数据驱动方法的最新进展表明,应用深度学习模型来增强社交机器人的视觉感知具有巨大潜力。然而,与资源效率更高的浅层学习模型相比,深度学习方法的高计算要求提出了有关其对现实世界交互和用户体验的影响的重要问题。目前尚不清楚当社交机器人采用基于深度学习的视觉感知模型时,客观交互性能和主观用户体验将如何受到影响。我们采用最先进的人类感知和跟踪模型来改善 Pepper 机器人的视觉感知功能,并进行了受控实验室研究和野外人类机器人交互研究,以评估这种新颖的感知功能,以跟踪特定用户与其他人

Open-world Machine Learning: A Review and New Outlooks
Authors Fei Zhu, Shijie Ma, Zhen Cheng, Xu Yao Zhang, Zhaoxiang Zhang, Cheng Lin Liu
机器学习在许多应用中取得了显着的成功。然而,现有的研究很大程度上基于封闭世界假设,即假设环境是静止的,模型一旦部署就固定下来。在许多现实世界的应用中,这种基本且相当幼稚的假设可能并不成立,因为开放环境是复杂的、动态的且充满未知数。在这种情况下,拒绝未知,发现新奇事物,然后逐步学习它们,可以使模型变得安全并像生物系统一样不断进化。本文通过研究统一范式中的未知拒绝、新类发现和类增量学习,提供了开放世界机器学习的整体视图。详细讨论了当前方法的挑战、原则和局限性。最后,我们讨论了未来研究的几个潜在方向。

AFBT GAN: enhanced explainability and diagnostic performance for cognitive decline by counterfactual generative adversarial network
Authors Xiongri Shen, Zhenxi Song, Zhiguo Zhang
现有的功能连通性FC的解释结果通常是利用分类结果标签和Pearson相关或梯度向后等相关分析方法生成的。然而,诊断模型仍然是在黑盒模型上训练的,并且在训练过程中可能缺乏重要区域FC的关注。为了增强可解释性并提高诊断性能,为诊断模型提供健康受试者HC发展为受试者认知衰退SCD和轻度认知障碍MCI时神经退行性变相关区域的先验知识是关键步骤。为了更好地确定神经退行性变相关区域,我们采用反事实推理来生成从源标签 FC 派生的目标标签 FC 矩阵,然后用目标标签 FC 减去源标签 FC。反事实推理架构由自适应前向和后向变压器生成对抗网络 AFBT GAN 构建,该网络是根据 FC 中的网络特性和变压器中的逆补丁嵌入操作专门设计的。具体的设计可以使模型更加关注当前的网络相关性,并利用变压器的全局洞察力来重构FC,这都有助于生成高质量的目标标签FC。验证实验在临床和公共数据集上进行,生成的注意力图与认知功能密切相关,诊断性能也很重要。

PI-AstroDeconv: A Physics-Informed Unsupervised Learning Method for Astronomical Image Deconvolution
Authors Shulei Ni, Yisheng Qiu, Yunchun Chen, Zihao Song, Hao Chen, Xuejian Jiang, Huaxi Chen
在天文望远镜的成像过程中,其光束或点扩散函数PSF的反卷积是一项至关重要的任务。然而,反卷积提出了一个经典且具有挑战性的逆计算问题。在光束或 PSF 复杂或测量不准确的情况下,例如在干涉阵列和某些射电望远镜中,所产生的模糊图像通常很难用传统的物理检测方法进行视觉解释或分析。我们认为传统方法经常缺乏特定的先验知识,从而导致性能不佳。为了解决这个问题并实现图像反卷积和重建,我们提出了一种融合先验物理信息的无监督网络架构。该网络采用编码器解码器结构,同时利用望远镜的PSF作为先验知识。在网络训练期间,我们引入了加速快速傅立叶变换 FFT 卷积,以实现高分辨率输入图像和 PSF 的高效处理。

Improving Adversarial Energy-Based Model via Diffusion Process
Authors Cong Geng, Tian Han, Peng Tao Jiang, Hao Zhang, Jinwei Chen, S ren Hauberg, Bo Li
生成模型已显示出强大的生成能力,而有效的似然估计则较少被探索。基于能量的模型 EBM 定义了灵活的能量函数,可以有效地参数化非标准化密度,但因难以训练而臭名昭著。对抗性 EBM 引入生成器来形成极小极大训练游戏,以避免传统 EBM 中使用昂贵的 MCMC 采样,但对抗性 EBM 与其他强生成模型之间仍然存在明显的差距。受基于扩散的模型的启发,我们将 EBM 嵌入到每个去噪步骤中,将长生成过程分成几个较小的步骤。此外,我们采用对称 Jeffrey 散度,并为生成器训练引入变分后验分布,以解决对抗性 EBM 中存在的主要挑战。

You Need to Pay Better Attention
Authors Mehran Hosseini, Peyman Hosseini
我们引入了三种新的注意力机制,它们在效率和学习能力方面优于标准多头注意力,从而提高了 Transformer 模型的性能和更广泛的可部署性。我们的第一个贡献是优化注意力,它的表现与标准注意力类似,但每个头有 3-4 个参数,并且更少的一个矩阵乘法。接下来,我们介绍 Efficient Attention,它的性能与标准 Attention 相当,参数数量仅为标准 Attention 的 1 2 个,每个头的矩阵乘法次数更少,速度高达标准 Attention 的两倍。最后,我们介绍了超级注意力,它在视觉和自然语言处理任务上都远远超过了标准注意力,同时参数和矩阵乘法更少。

Critical windows: non-asymptotic theory for feature emergence in diffusion models
Authors Marvin Li, Sitan Chen
我们发展理论来理解图像生成扩散模型的一个有趣的特性,我们称之为临界窗口。根据经验,已经观察到采样中存在很窄的时间间隔,在此期间最终图像的特定特征出现,例如图像类别或背景颜色 Ho et al., 2020b Georgiev et al., 2023 Raya Ambrogioni, 2023 Sclocchi et al., 2024 Biroli et al., 2024 。虽然这对于可解释性是有利的,因为它意味着可以将生成的属性定位到轨迹的一小部分,但这似乎与扩散的连续性质不一致。我们提出了一个研究这些窗口的正式框架,并表明,对于来自强对数凹密度混合的数据,这些窗口可以根据组间和组内分离的某些度量来证明有界。我们还为具体示例(例如条件良好的高斯混合)实例化了这些边界。最后,我们使用边界对扩散模型进行严格解释,将其作为分层采样器,在离散的时间序列上逐步决定输出特征。我们通过综合实验验证我们的界限。

APISR: Anime Production Inspired Real-World Anime Super-Resolution
Authors Boyang Wang, Fengyu Yang, Xihang Yu, Chao Zhang, Hanbin Zhao
虽然现实世界动漫超分辨率 SR 在 SR 社区中获得了越来越多的关注,但现有方法仍然采用来自真实感领域的技术。在本文中,我们分析了动漫制作流程,并重新思考如何利用其特点来实现现实世界的动漫SR。首先,我们认为由于手绘帧的重复使用,视频网络和数据集对于动漫 SR 来说不是必需的。相反,我们通过从视频源中选择压缩最少且信息最多的帧来提出动漫图像收集管道。基于这个管道,我们引入了面向动漫制作的图像API数据集。此外,我们还确定了两个动漫特定的挑战,即扭曲和微弱的手绘线条以及不需要的色彩伪影。我们通过在图像退化模型中引入面向预测的压缩模块和具有增强手绘线的伪地面实况准备来解决第一个问题。此外,我们引入了平衡双感知损失,结合了动画和照片级真实感高级功能,以减轻不需要的色彩伪影并提高视觉清晰度。

CDSE-UNet: Enhancing COVID-19 CT Image Segmentation with Canny Edge Detection and Dual-Path SENet Feature Fusion
Authors Jiao Ding, Jie Chang, Renrui Han, Li Yang
COVID 19 CT 图像的准确分割对于降低与 COVID 19 感染相关的严重程度和死亡率至关重要。针对COVID 19 CT图像中病灶区域边界模糊和高变异性的特点,我们引入了CDSE UNet,一种基于UNet的新型分割模型,集成了Canny算子边缘检测和双路径SENet特征融合机制。该模型通过使用 Canny 算子在样本图像中进行边缘检测来增强标准 UNet 架构,并将其与用于语义特征提取的类似网络结构并行。一项关键创新是双 SENet 特征融合块,它应用于相应的网络层,以有效地组合来自两个图像路径的特征。此外,我们开发了一种多尺度卷积方法,取代 UNet 中的标准卷积,以​​适应不同的病变大小和形状。这一添加不仅有助于准确地对病变边缘像素进行分类,而且还显着提高了通道区分度并扩展了模型的容量。

Approximations to the Fisher Information Metric of Deep Generative Models for Out-Of-Distribution Detection
Authors Sam Dauncey, Chris Holmes, Christopher Williams, Fabian Falck
基于似然的深度生成模型(例如基于分数的扩散模型和变分自动编码器)是最先进的机器学习模型,近似数据(例如图像、文本或音频)的高维分布。它们可以自然地应用到的许多下游任务之一是分布外 OOD 检测。然而,Nalisnick 等人的开创性工作。我们重现的结果表明,深度生成模型始终推断出 OOD 数据的对数似然性高于它们所训练的数据,这标志着一个悬而未决的问题。在这项工作中,我们基于 OOD 数据应具有比训练数据更大的梯度范数的简单直觉,使用数据点相对于 OOD 检测深度生成模型参数的梯度进行分析。我们将梯度大小的测量形式化为费舍尔信息度量的近似值。我们证明 Fisher 信息矩阵 FIM 具有较大的绝对对角线值,从而激发了使用卡方分布、分层梯度范数作为特征。我们结合这些特征,为 OOD 检测创建了一种简单的、与模型无关且无超参数的方法,该方法估计给定数据点的逐层梯度范数的联合密度。我们发现这些分层梯度范数是弱相关的,使得它们的组合使用信息丰富,并证明分层梯度范数满足数据表示不变性的原则。

DUFOMap: Efficient Dynamic Awareness Mapping
Authors Daniel Duberg, Qingwen Zhang, MingKai Jia, Patric Jensfelt
现实世界的动态本质是机器人技术的主要挑战之一。处理这个问题的第一步是检测世界的哪些部分是动态的。典型的基准任务是创建一个仅包含世界静态部分的地图,以支持本地化和规划等工作。当前的解决方案通常应用于后处理,其中参数调整允许用户调整特定数据集的设置。在本文中,我们提出了 DUFOMap,这是一种专为高效在线处理而设计的新型动态感知映射框架。尽管所有场景都具有相同的参数设置,但它的性能更好或与最先进的方法相当。利用射线投射来识别和分类完全观察到的空白区域。由于观察到这些区域是空的,因此在其他时间它们内部的任何东西都必须是动态的。评估在各种场景中进行,包括 KITTI 和 Argoverse 2 的室外环境、KTH 校园的开放区域以及不同的传感器类型。 DUFOMap 在准确性和计算效率方面优于最先进的技术。提供了源代码、基准测试和所使用的数据集的链接。

Enhancing Retinal Vascular Structure Segmentation in Images With a Novel Design Two-Path Interactive Fusion Module Model
Authors Rui Yang, Shunpu Zhang
精确识别和区分视网膜中的微观和宏观血管对于视网膜疾病的诊断至关重要,尽管它提出了重大挑战。当前基于自动编码的分割方法遇到限制,因为它们受到编码器的约束并且在编码阶段经历分辨率的降低。无法在解码阶段恢复丢失的信息进一步阻碍了这些方法。因此,它们提取视网膜微血管结构的能力受到限制。为了解决这个问题,我们引入了 Swin Res Net,这是一个专门用于提高视网膜血管分割精度的模块。 Swin Res Net 利用 Swin 变压器,使用带位移的移位窗口进行分区,以降低网络复杂性并加速模型收敛。此外,该模型将交互式融合与 Res2Net 架构中的功能模块相结合。 Res2Net 利用多尺度技术来扩大卷积核的感受野,从而能够从图像中提取额外的语义信息。这种组合创建了一个新模块,可以增强视网膜中微血管的定位和分离。

Mitigating the Bias in the Model for Continual Test-Time Adaptation
Authors Inseop Chung, Kyomin Hwang, Jayeon Yoo, Nojun Kwak
持续测试时间适应 CTA 是一项具有挑战性的任务,旨在使源预训练模型适应不断变化的目标领域。在 CTA 设置中,模型不知道目标域何时发生变化,因此在测试期间面临流输入分布的巨大变化。关键的挑战是以在线方式不断调整模型以适应不断变化的目标领域。我们发现模型显示出高度偏差的预测,因为它不断适应目标数据的链接分布。它比其他类别更频繁地预测某些类别,从而导致预测不准确。本文缓解了这个问题,以提高 CTA 场景中的性能。为了缓解偏差问题,我们使用可靠的目标样本制作了类明智的指数移动平均目标原型,并利用它们明智地对目标特征类进行聚类。此外,我们的目标是通过将目标特征锚定到其相应的源原型来将目标分布与源分布对齐。

Bespoke Non-Stationary Solvers for Fast Sampling of Diffusion and Flow Models
Authors Neta Shaul, Uriel Singer, Ricky T. Q. Chen, Matthew Le, Ali Thabet, Albert Pumarola, Yaron Lipman
本文介绍了定制非平稳 BNS 求解器,这是一种求解器蒸馏方法,可提高扩散和流动模型的样本效率。 BNS 求解器基于一系列非平稳求解器,这些求解器可证明包含现有的数值 ODE 求解器,因此在这些基线上展示了样本近似 PSNR 的显着改进。与模型蒸馏相比,BNS 求解器受益于较小的参数空间(200 个参数)、快速优化两个数量级、保持样本的多样性,并且与以前的求解器蒸馏方法相比,几乎缩小了与标准蒸馏方法(例如渐进式蒸馏)的差距。低中NFE制度。

ICC: Quantifying Image Caption Concreteness for Multimodal Dataset Curation
Authors Moran Yanuka, Morris Alper, Hadar Averbuch Elor, Raja Giryes
配对文本图像数据的网络规模训练对于多模式学习变得越来越重要,但受到野外数据集的高噪声性质的挑战。标准数据过滤方法成功地删除了不匹配的文本图像对,但允许语义相关但高度抽象或主观的文本。这些方法缺乏细粒度的能力来隔离最具体的样本,而这些样本为在嘈杂的数据集中提供最强的学习信号。在这项工作中,我们提出了一种新的指标,即图像标题具体性,它可以在没有图像参考的情况下评估标题文本,以衡量其在多模态学习中使用的具体性和相关性。我们的方法利用强大的基础模型来测量多模态表示中的视觉语义信息丢失。我们证明,这与人类对单个单词和句子级别文本的具体性的评估密切相关。

Training Unbiased Diffusion Models From Biased Dataset
Authors Yeongmin Kim, Byeonghu Na, Minsang Park, JoonHo Jang, Dongjun Kim, Wanmo Kang, Il Chul Moon
随着扩散模型的显着进步,解决数据集偏差的潜在风险变得越来越重要。由于生成的输出直接受到数据集偏差的影响,因此减轻潜在偏差成为提高样本质量和比例的关键因素。本文提出了时间相关重要性重新加权来减轻扩散模型的偏差。我们证明,时间相关的密度比变得比以前的方法更精确,从而最大限度地减少生成学习中的错误传播。虽然直接将其应用于分数匹配很棘手,但我们发现使用时间相关的密度比进行重新加权和分数校正可以产生目标函数的易于处理的形式,以重新生成无偏数据密度。此外,我们从理论上建立了与传统分数匹配的联系,并证明了其收敛到无偏分布。实验证据支持所提出方法的实用性,该方法优于基线,包括在具有各种偏差设置的 CIFAR 10、CIFAR 100、FFHQ 和 CelebA 上进行时间无关重要性重新加权。

Towards Accurate Lip-to-Speech Synthesis in-the-Wild
Authors Sindhu Hegde, Rudrabha Mukhopadhyay, C.V. Jawahar, Vinay Namboodiri
在本文中,我们介绍了一种新颖的方法来解决仅基于嘴唇运动从任何野外说话者的无声视频中合成语音的任务。直接从唇形视频生成语音的传统方法面临着无法仅从语音中学习鲁棒语言模型的挑战,导致结果不令人满意。为了克服这个问题,我们建议使用最先进的唇语到文本网络来纳入噪声文本监督,将语言信息注入到我们的模型中。噪声文本是使用预先训练的唇形到文本模型生成的,使我们的方法在推理过程中无需文本注释即可工作。我们设计了一个视觉文本到语音网络,利用视觉流生成准确的语音,与无声输入视频同步。我们进行了广泛的实验和消融研究,证明我们的方法在各种基准数据集上优于当前最先进的方法。此外,我们通过为失去声音但可以进行嘴巴运动的 ALS 患者生成语音来展示我们的方法在辅助技术中的重要实际应用。

Seeing Unseen: Discover Novel Biomedical Concepts via GeometryConstrained Probabilistic Modeling
Authors Jianan Fan, Dongnan Liu, Hang Chang, Heng Huang, Mei Chen, Weidong Cai
机器学习凭借其数据驱动的性质,为改变科学发现的基本实践带来了巨大的希望。随着研究数据收集的不断增加,从观察数据中自主探索模式和见解以发现新的表型和概念类别将很有吸引力。然而,在生物医学领域,累积数据本身存在一些挑战,阻碍了新类别发现的进展。非独立同分布数据分布伴随着不同类组之间的严重不平衡,本质上导致了语义表示的模糊性和偏差。在这项工作中,我们提出了一种几何约束概率建模处理来解决已识别的问题。首先,我们建议将实例嵌入的近似后验参数化为边际 von MisesFisher 分布,以考虑分布潜在偏差的干扰。然后,我们结合了一套关键的几何属性,对构建的嵌入空间的布局施加适当的约束,从而最大限度地减少未知类学习和结构化的不可控风险。此外,设计了谱图理论方法来估计潜在新类别的数量。与现有方法相比,它继承了两个有趣的优点,即高计算效率和分类自适应估计的灵活性。

SELFI: Autonomous Self-Improvement with Reinforcement Learning for Social Navigation
Authors Noriaki Hirose, Dhruv Shah, Kyle Stachowicz, Ajay Sridhar, Sergey Levine
通过经验进行交互和改进的自主自我改进机器人是机器人系统在现实世界中部署的关键。在本文中,我们提出了一种在线学习方法 SELFI,它利用在线机器人经验来快速有效地调整预训练的控制策略。 SELFI 在基于离线模型的学习之上应用在线无模型强化学习,以发挥两种学习范式的最佳部分。具体来说,SELFI 通过将离线预训练中基于相同模型的学习目标合并到通过在线无模型强化学习学习到的 Q 值中来稳定在线学习过程。我们在多个现实世界环境中评估 SELFI,并报告在避免碰撞方面的改进,以及通过人类用户研究衡量的更符合社会规范的行为。 SELFI 使我们能够以较少的人为干预快速学习有用的机器人行为,例如行人的先发制人行为、避免小型和透明物体的碰撞以及避免在不平坦的地板表面上行驶。

Joint Spatial-Temporal Calibration for Camera and Global Pose Sensor
Authors Junlin Song, Antoine Richard, Miguel Olivares Mendez
在机器人技术中,运动捕捉系统已被广泛用于测量定位算法的准确性。此外,该基础设施还可以用于其他计算机视觉任务,例如视觉惯性SLAM动态初始化的评估、多目标跟踪或自动注释。然而,为了最佳地工作,这些功能需要在相机和全局姿态传感器之间具有准确且可靠的时空校准参数。在本研究中,我们提供了两种新颖的解决方案来估计这些校准参数。首先,我们设计了一种具有高精度和一致性的基于离线目标的方法。时空参数、相机固有参数和轨迹同时优化。然后,我们提出了一种在线无目标方法,消除了对校准目标的需要,并能够估计随时间变化的时空参数。此外,我们对无目标方法进行了详细的可观测性分析。我们关于可观测性的理论发现通过模拟实验得到了验证,并为校准提供了可解释的指南。

Fine-tuning with Very Large Dropout
Authors Jianyu Zhang, L on Bottou
今天不可能假装机器学习的实践与训练和测试数据遵循相同分布的想法兼容。几位作者最近使用集成技术来展示涉及多个数据分布的场景如何最好地通过表示来提供服务,这些表示既比通过正则化获得最佳分布性能所获得的表示更丰富,又比在隐式稀疏偏差影响下获得的表示更丰富

VisRec: A Semi-Supervised Approach to Radio Interferometric Data Reconstruction
Authors Ruoqi Wang, Haitao Wang, Qiong Luo, Feng Wang, Hejun Wu
射电望远镜产生有关天体的可见度数据,但这些数据稀疏且嘈杂。因此,根据原始可见性数据创建的图像质量较低。最近的研究使用深度学习模型来重建可见性数据以获得更清晰的图像。然而,这些方法依赖于大量标记的训练数据,这需要射电天文学家进行大量的标记工作。为了解决这一挑战,我们提出了 VisRec,一种模型无关的半监督学习方法,用于重建可见性数据。具体来说,VisRec由监督学习模块和无监督学习模块组成。在监督学习模块中,我们引入了一组数据增强函数来生成不同的训练示例。相比之下,VisRec 中的无监督学习模块增强了未标记数据,并使用非增强可见性数据的重建作为训练的伪标签。这种混合方法使 VisRec 能够有效地利用标记和未标记数据。这样,即使标记数据稀缺,VisRec 也能表现良好。

Fast and Efficient Local Search for Genetic Programming Based Loss Function Learning
Authors Christian Raymond, Qi Chen, Bing Xue, Mengjie Zhang
在本文中,我们以损失函数学习为主题,这是一种新兴的元学习范式,旨在学习损失函数,从而显着提高在其下训练的模型的性能。具体来说,我们提出了一种新的元学习框架,通过混合搜索方法进行任务和模型不可知的损失函数学习。该框架首先使用遗传编程来查找一组符号损失函数。其次,学习到的损失函数集随后通过展开微分进行参数化和优化。所提出框架的多功能性和性能在一组不同的监督学习任务上得到了实证验证。

CFRet-DVQA: Coarse-to-Fine Retrieval and Efficient Tuning for Document Visual Question Answering
Authors Jinxu Zhang, Yongqi Yu, Yu Zhang
文档视觉问答 DVQA 是一项涉及根据图像内容响应查询的任务。现有的工作仅限于在单个页面内定位信息,并且不便于跨页面问答交互。此外,对模型输入施加的标记长度限制可能会导致与答案相关的片段被截断。在本研究中,我们介绍了一种简单但有效的方法,称为 CFRet DVQA,该方法侧重于检索和高效调整,以有效解决这一关键问题。为此,我们首先从文档中检索与当前问题相关的多个片段。随后,我们利用大语言模型 LLM 的高级推理能力,通过指令调整进一步增强其性能。这种方法可以生成与文档标签样式一致的答案。

Enhanced User Interaction in Operating Systems through Machine Learning Language Models
Authors Chenwei Zhang, Wenran Lu, Chunhe Ni, Hongbo Wang, Jiang Wu
随着大语言模型展现出类似人类的逻辑推理和理解能力,基于大语言模型的智能体能否模拟真实用户的交互行为,从而构建可靠的虚拟推荐A B测试场景,帮助推荐研究的应用。一个紧迫、重要且具有经济价值的问题。交互设计与机器学习的结合可以为产品和服务提供更加高效、个性化的用户体验。这种个性化服务可以满足用户的特定需求,提高用户满意度和忠诚度。其次,交互系统可以通过提供良好的用户界面和交互体验来了解用户对产品的看法和需求,然后利用机器学习算法来改进和优化产品。这种迭代优化过程可以不断提高产品的质量和性能,以满足用户不断变化的需求。同时,设计者需要考虑如何将这些算法和工具与交互系统相结合,以提供良好的用户体验。本文探讨了大型语言模型、机器学习和交互设计在推荐系统和操作系统中的用户交互的潜在应用。通过整合这些技术,可以提供更加智能化、个性化的服务,满足用户需求,促进产品的不断改进和优化。

XProspeCT: CT Volume Generation from Paired X-Rays
Authors Benjamin Paulson, Joshua Goldshteyn, Sydney Balboni, John Cisler, Andrew Crisler, Natalia Bukowski, Julia Kalish, Theodore Colwell
计算机断层扫描 CT 是一种有益于诊断目的的成像工具。 CT 扫描提供有关患者内部解剖结构的详细信息,但与 X 射线成像相比,辐射剂量和成本更高。在本文中,我们基于之前的研究,通过探索更大的数据集和各种模型结构,将正交 X 射线图像转换为模拟 CT 体积。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值