【AI视野·今日CV 计算机视觉论文速览 第300期】Tue, 30 Jan 2024

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 30 Jan 2024
Totally 146 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Computer Vision for Primate Behavior Analysis in the Wild
Authors Richard Vogg, Timo L ddecke, Jonathan Henrich, Sharmita Dey, Matthias Nuske, Valentin Hassler, Derek Murphy, Julia Fischer, Julia Ostner, Oliver Sch lke, Peter M. Kappeler, Claudia Fichtel, Alexander Gail, Stefan Treue, Hansj rg Scherberger, Florentin W rg tter, Alexander S. Ecker
计算机视觉的进步以及日益广泛的基于视频的行为监测对于改变我们研究动物认知和行为的方式具有巨大的潜力。然而,令人兴奋的前景与今天在实践中实际可以实现的目标之间仍然存在相当大的差距,尤其是在野外视频中。通过这篇前瞻性论文,我们希望通过指导行为科学家了解当前方法的预期,并引导计算机视觉研究人员解决与动物行为高级研究相关的问题,从而为缩小这一差距做出贡献。我们首先调查与基于视频的动物行为研究直接相关的计算机视觉问题的最先进方法,包括对象检测、多个体跟踪、交互识别和个体识别。然后,我们回顾了高效学习的方法,从实践的角度来看,这是最大的挑战之一。

Synchformer: Efficient Synchronization from Sparse Cues
Authors Vladimir Iashin, Weidi Xie, Esa Rahtu, Andrew Zisserman
我们的目标是视听同步,重点关注野外视频,例如 YouTube 上的视频,其中同步线索可能很少。我们的贡献包括一种新颖的视听同步模型,以及通过多模态分段级对比预训练将特征提取与同步建模分离的训练。这种方法在密集和稀疏设置中都实现了最先进的性能。

InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model
Authors Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang
我们推出 InternLM XComposer2,这是一种尖端视觉语言模型,在自由形式文本图像合成和理解方面表现出色。该模型超越了传统的视觉语言理解,可以根据轮廓、详细文本规范和参考图像等不同输入巧妙地制作交错的文本图像内容,从而实现高度可定制的内容创建。 InternLM XComposer2提出了一种部分LoRA PLoRA方法,该方法将额外的LoRA参数专门应用于图像标记,以保持预先训练的语言知识的完整性,在精确的视觉理解和具有文学天赋的文本写作之间取得平衡。实验结果表明,基于 InternLM2 7B 的 InternLM XComposer2 在生成高质量长文本多模态内容方面具有优越性,并且在各种基准测试中具有出色的视觉语言理解性能,不仅显着优于现有的多模态模型,而且匹配甚至超越了 GPT 4V 和Gemini Pro 在某些评估中。这凸显了其在多模态理解领域的卓越熟练程度。

Endo-4DGS: Distilling Depth Ranking for Endoscopic Monocular Scene Reconstruction with 4D Gaussian Splatting
Authors Yiming Huang, Beilei Cui, Long Bai, Ziqi Guo, Mengya Xu, Hongliang Ren
在机器人辅助微创手术领域,动态场景重建可以显着增强下游任务并改善手术结果。神经辐射场 基于 NeRF 的方法最近因其重建场景的卓越能力而受到关注。尽管如此,这些方法受到缓慢的推理、长时间的训练和大量的计算需求的阻碍。此外,有些依赖于立体深度估计,但由于与立体相机相关的高成本和后勤挑战,这通常是不可行的。此外,目前可变形场景的单目重建质量还不够。为了克服这些障碍,我们推出了 Endo 4DGS,这是一种创新的实时内窥镜动态重建方法,它利用 4D 高斯 Splatting GS 并且不需要地面真实深度数据。该方法通过合并时间组件来扩展 3D GS,并利用轻量级 MLP 来捕获时间高斯变形。这有效地促进了多条件下动态手术场景的重建。我们还集成 Depth Anything 以从单目视图生成伪深度图,从而增强深度引导重建过程。我们的方法已经在两个手术数据集上得到了验证,事实证明它可以实时渲染、高效计算并以极高的准确性进行重建。

A Survey on Visual Anomaly Detection: Challenge, Approach, and Prospect
Authors Yunkang Cao, Xiaohao Xu, Jiangning Zhang, Yuqi Cheng, Xiaonan Huang, Guansong Pang, Weiming Shen
视觉异常检测 VAD 致力于查明视觉数据中与正常性概念的偏差,广泛应用于不同领域,例如工业缺陷检查和医疗病变检测。这项调查通过确定三个主要挑战(1 训练数据的稀缺性、2 视觉模式的多样性以及 3 层次异常的复杂性),全面考察了 VAD 的最新进展。我们从简要概述VAD背景及其通用概念定义开始,从样本数量、数据模态和异常层次的角度逐步对VAD的最新进展进行分类、强调和讨论。

Amazon's 2023 Drought: Sentinel-1 Reveals Extreme Rio Negro River Contraction
Authors Fabien H Wagner, Samuel Favrichon, Ricardo Dalagnol, Mayumi CM Hirye, Adugna Mullissa, Sassan Saatchi
世界上最大的雨林亚马逊正面临历史性的严重干旱。亚马逊河主要支流之一的内格罗河在 2023 年 10 月达到一个世纪以来的最低水位。这里,我们使用 U net 深度学习模型绘制了 2022 年每 12 天的内格罗河流域水面图,并2023 年使用 10 m 空间分辨率的 Sentinel 1 卫星雷达图像。水面模型精度较高,F1得分为0.93。 12 天的水面马赛克时间序列是根据 Sentinel 1 预测生成的。水面掩模与联合研究中心的全球地表水 GSW 产品 F1 得分 0.708 以及巴西 Mapbiomas 水倡议 F1 得分 0.686 表现出相对一致的一致性。地图的主要错误是被淹没的林地、被淹没的灌木丛和云层的遗漏错误。里奥内格罗水面于2023年11月25日左右达到最低水平,并减少至2022-2023年间观测到的最大水面14,036.3 km 2 的68.1 9,559.9 km 2 。

Spot the Error: Non-autoregressive Graphic Layout Generation with Wireframe Locator
Authors Jieru Lin, Danqing Huang, Tiejun Zhao, Dechen Zhan, Chin Yew Lin
布局生成是图形设计中实现有意义的元素组合的关键步骤。大多数以前的作品将其视为通过连接元素属性标记(即类别、大小、位置)的序列生成问题。到目前为止,自回归方法 AR 已经取得了可喜的结果,但在全局上下文建模中仍然受到限制,并且由于它只能关注先前生成的标记而受到错误传播的影响。最近的非自回归尝试 NAR 已经显示出有竞争力的结果,它提供了更广泛的上下文范围和通过迭代解码进行细化的灵活性。然而,当前的工作仅使用简单的启发式方法来识别错误的标记以进行细化,这是不准确的。本文首先进行深入分析,以更好地理解AR和NAR框架之间的区别。此外,根据我们的观察,像素空间在捕获图形布局的空间模式(例如重叠、对齐)方面更加敏感,我们提出了一种基于学习的定位器来检测错误标记,该定位器将从生成的布局序列渲染的线框图像作为输入。我们证明它可以作为对象空间中元素序列的补充模式,并对整体性能做出巨大贡献。对两个公共数据集的实验表明,我们的方法优于 AR 和 NAR 基线。广泛的研究进一步证明了不同模块的有效性,并得出了有趣的发现。

PathMMU: A Massive Multimodal Expert-Level Benchmark for Understanding and Reasoning in Pathology
Authors Yuxuan Sun, Hao Wu, Chenglu Zhu, Sunyi Zheng, Qizi Chen, Kai Zhang, Yunlong Zhang, Xiaoxiao Lan, Mengyue Zheng, Jingxiong Li, Xinheng Lyu, Tao Lin, Lin Yang
大型多模态模型的出现释放了人工智能领域的巨大潜力,特别是在病理学领域。然而,缺乏专业化、高质量的基准,阻碍了其发展和精确评估。为了解决这个问题,我们引入了 PathMMU,这是最大、质量最高的经过专家验证的 LMM 病理学基准。它包含 33,573 个多模式多项选择问题和来自不同来源的 21,599 张图像,每个问题都附有正确答案的解释。 PathMMU 的构建利用了 GPT 4V 的强大功能,利用大约 30,000 个收集的图像标题对来生成 Q As。值得注意的是,为了最大限度地发挥PathMMU的权威,我们邀请了六位病理学家在PathMMU的验证和测试集中严格标准下仔细审查每个问题,同时为PathMMU设定了专家级的性能基准。我们进行了广泛的评估,包括对 14 个开源和三个闭源 LMM 及其对图像损坏的鲁棒性进行零样本评估。我们还对代表性 LMM 进行微调,以评估它们对 PathMMU 的适应性。实证结果表明,先进的 LMM 很难应对具有挑战性的 PathMMU 基准,其中表现最好的 LMM GPT 4V 仅获得 51.7 的零射击性能,显着低于人类病理学家展示的 71.4。经过微调,即使是开源的 LMM 也可以超越 GPT 4V,性能超过 60,但仍达不到病理学家所表现出的专业水平。

Adversarial Training on Purification (AToP): Advancing Both Robustness and Generalization
Authors Guang Lin, Chao Li, Jianhai Zhang, Toshihisa Tanaka, Qibin Zhao
众所周知,深度神经网络很容易受到精心设计的对抗性攻击。基于对抗性训练 AT 的最成功的防御技术可以针对特定攻击实现最佳鲁棒性,但不能很好地泛化到未见过的攻击。另一种基于对抗性净化AP的有效防御技术可以增强泛化能力,但无法达到最佳的鲁棒性。同时,这两种方法都有一个共同的限制,即标准精度下降。为了缓解这些问题,我们提出了一种名为 Adversarial Training on Purification AToP 的新颖框架,其中包括通过随机变换 RT 进行的扰动破坏和通过对抗性损失进行微调 FT 的净化器模型两个部分。 RT 对于避免对已知攻击的过度学习至关重要,从而导致对未见过的攻击的鲁棒性泛化,而 FT 对于提高鲁棒性至关重要。

Cross-Modal Coordination Across a Diverse Set of Input Modalities
Authors Jorge S nchez, Rodrigo Laguna
跨模态检索是通过使用不同模态的查询来检索给定模态的样本的任务。由于实际应用范围广泛,问题主要集中在视觉和语言案例上,例如文本到图像检索,像 CLIP 这样的模型已被证明可以有效解决此类任务。学习这种协调表示的主要方法包括将它们投影到一个公共空间上,在该空间中,匹配视图保持靠近,而来自非匹配对的视图彼此远离。尽管这种跨模式协调也已应用于其他成对组合,但将其扩展到任意数量的不同模式是文献中尚未充分探讨的问题。在本文中,我们提出了两种不同的方法来解决该问题。第一个基于将 CLIP 对比目标扩展到任意数量的输入模态,而第二个则偏离对比公式,通过将跨模态相似性回归到反映两个简单直观约束的目标来解决协调问题。跨模态检索任务。我们在两个不同的数据集、不同的输入模式组合上进行了实验,结果表明该方法不仅简单有效,而且还允许以新颖的方式解决检索问题。

Synthesis of 3D on-air signatures with the Sigma-Lognormal model
Authors Miguel A. Ferrer, Moises Diaz, Cristina Carmona Duarte, Jose J. Quintana Hernandez, Rejean Plamondon
签名合成是一种生成人工样本的计算技术,可以支持自动签名验证中的决策。许多工作致力于这个主题,其重点是在画布上合成动态和静态二维手写体。本文提出了一个利用对数正态性原理在空气特征上生成合成 3D 的框架,该框架模仿指尖移动时发挥作用的复杂神经运动控制过程。针对涉及人工个体开发和重复样本的常见情况,本文有助于合成 1 全 3D 新签名的轨迹和速度 2 仅知道签名的 3D 轨迹时的运动信息,以及 3 个重复样本3D真实签名。验证是通过生成模仿真实签名的合成 3D 签名数据库来进行的,并显示对真实和熟练伪造品的自动签名验证报​​告的性能与真实和合成数据库的性能相似。我们还观察到,使用重复项训练 3D 自动签名验证器可以减少错误。我们进一步证明,我们的建议对于合成 3D 空中书写和手势也有效。最后,感知测试证实了生成的样本与人类的相似性。

MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D Object Detection
Authors Yuxue Yang, Lue Fan, Zhaoxiang Zhang
基于标签高效 LiDAR 的 3D 物体检测目前以弱半监督方法为主。我们提出了 MixSup,而不是仅仅遵循其中一个,这是一种更实用的范例,同时利用大量廉价的粗标签和有限数量的精确标签进行混合粒度监督。我们首先观察到点云通常是无纹理的,这使得学习语义变得困难。然而,点云具有丰富的几何形状,并且对于距传感器的距离具有尺度不变性,使得学习物体的几何形状(例如姿势和形状)相对容易。因此,MixSup 利用大量粗略集群级标签来学习语义,并利用一些昂贵的框级标签来学习准确的姿势和形状。我们重新设计了主流检测器中的标签分配,使它们能够无缝集成到 MixSup 中,从而实现实用性和通用性。我们使用各种检测器在 nuScenes、Waymo 开放数据集和 KITTI 中验证其有效性。 MixSup 使用廉价的集群注释和仅 10 个框注释,实现了高达 97.31 的完全监督性能。此外,我们提出基于Segment Anything Model的PointSAM用于自动粗标记,进一步减轻注释负担。

Regressing Transformers for Data-efficient Visual Place Recognition
Authors Mar a Leyva Vallina, Nicola Strisciuglio, Nicolai Petkov
视觉地点识别是计算机视觉中的一项关键任务,特别是对于定位和导航系统。现有方法通常依赖于对比学习,图像描述符被训练为在潜在空间中对于相似图像具有较小的距离,对于不相似的图像具有较大的距离。然而,这种方法很难确保准确的基于距离的图像相似性表示,特别是在使用二进制成对标签进行训练时,并且需要复杂的重新排序策略。这项工作通过将地点识别视为回归问题,使用相机视场重叠作为学习的相似性基础事实,引入了一种全新的视角。

Breaking the Barrier: Selective Uncertainty-based Active Learning for Medical Image Segmentation
Authors Siteng Ma, Haochang Wu, Aonghus Lawlor, Ruihai Dong
主动学习 AL 在医学图像分割中得到了广泛的应用,旨在减轻标注工作量并提高性能。基于传统不确定性的 AL 方法(例如熵和贝叶斯)通常依赖于所有像素级指标的聚合。然而,在不平衡的环境中,这些方法往往忽略目标区域的重要性,例如病变和肿瘤。此外,基于不确定性的选择引入了冗余。这些因素导致性能不理想,在许多情况下甚至不如随机采样。为了解决这个问题,我们引入了一种称为基于选择性不确定性的 AL 的新颖方法,避免了对所有像素的度量求和的传统做法。通过过滤过程,我们的策略优先考虑目标区域内和决策边界附近的像素。这解决了上述对目标区域和冗余的忽视。我们的方法在五种不同的基于不确定性的方法和两个不同的数据集上显示出显着的改进,利用更少的标记数据达到监督基线,并持续实现最高的整体性能。

Leveraging Positional Encoding for Robust Multi-Reference-Based Object 6D Pose Estimation
Authors Jaewoo Park, Jaeguk Kim, Nam Ik Cho
准确估计物体的姿态是计算机视觉和机器人技术中的一项关键任务。这种几何表示回归和迭代细化有两种主要的深度学习方法。然而,这些方法有一些限制,降低了它们的有效性。在本文中,我们分析了这些局限性并提出了克服它们的新策略。为了解决几何表示模糊的问题,我们对对象的 3D 坐标使用具有高频分量的位置编码。为了解决细化方法中的局部最小值问题,我们引入了一种基于归一化图像平面的多参考细化策略,该策略独立于内在矩阵约束。最后,我们利用自适应实例归一化和简单的遮挡增强方法来帮助我们的模型专注于目标对象。我们在 Linemod、Linemod Occlusion 和 YCB 视频数据集上的实验表明,我们的方法优于现有方法。

Cutup and Detect: Human Fall Detection on Cutup Untrimmed Videos Using a Large Foundational Video Understanding Model
Authors Till Grutschus, Ola Karrar, Emir Esenov, Ekta Vats
这项工作探索了大型视频理解基础模型在未修剪视频上人体跌倒检测下游任务中的性能,并利用预训练的视觉转换器进行多类别动作检测,其中包括跌倒、说谎和日常生活 ADL 的其他活动类别。演示了一种依赖于未修剪视频的简单剪切的时间动作定位方法。该方法包括一个预处理管道,该管道将带有时间戳动作注释的数据集转换为短动作剪辑的标记数据集。介绍了简单有效的剪辑采样策略。该方法的有效性已在公开的高质量跌倒模拟数据集 HQFSD 上进行了实证评估。实验结果验证了所提出的管道的性能。结果对于实时应用来说是有希望的,并且在给定实验设置下的 HQFSD 数据集上以最先进的 0.96 F1 分数在视频级别上检测到跌倒。

Cross-Database Liveness Detection: Insights from Comparative Biometric Analysis
Authors Oleksandr Kuznetsov, Dmytro Zakharov, Emanuele Frontoni, Andrea Maranesi, Serhii Bohucharskyi
在生物识别安全成为现代身份验证系统基石的时代,确保这些生物识别样本的真实性至关重要。活体检测是区分真实和伪造生物识别样本的能力,处于这一挑战的最前沿。这项研究对活体检测模型进行了全面评估,特别关注其在跨数据库场景中的性能,这是一种因其复杂性和现实世界相关性而臭名昭著的测试范式。我们的研究首先仔细评估各个数据集的模型,揭示其性能指标的细微差别。通过深入研究半总错误率、错误接受率和错误拒绝率等指标,我们发现了关于模型优缺点的宝贵见解。至关重要的是,我们对跨数据库测试的探索提供了一个独特的视角,突出了一个数据集上的训练与另一个数据集上的部署之间的鸿沟。与现有方法(从卷积网络到更复杂的策略)的比较分析丰富了我们对当前形势的理解。即使在最先进的模型之间,性能的差异也凸显了该领域固有的挑战。从本质上讲,本文既是研究结果的存储库,也是对生物特征活体检测中更细致、数据多样化和适应性更强的方法的号角号角。

A Volumetric Saliency Guided Image Summarization for RGB-D Indoor Scene Classification
Authors Preeti Meena, Himanshu Kumar, Sandeep Yadav
图像摘要是原始视觉内容的删节版本,可用于表示场景。因此,可以使用唯一的摘要有效地执行诸如场景分类、识别、索引等任务。显着性是生成相关图像摘要最常用的技术。然而,显着性的定义本质上是主观的并且取决于应用。现有的使用RGB D数据的显着性检测方法主要集中于颜色、纹理和深度特征。因此,生成的摘要包含前景对象或非静止对象。然而,与最先进的方法不同,诸如场景识别之类的应用需要场景的静态特征。本文提出了一种用于室内场景分类的新颖的体积显着性引导框架。

Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models
Authors Zhongjie Duan, Chengyu Wang, Cen Chen, Weining Qian, Jun Huang
卡通着色是一种非真实感动画渲染任务。其主要目的是渲染具有平坦且风格化外观的对象。随着扩散模型已经上升到图像合成方法的最前沿,本文深入研究了一种基于扩散模型的卡通着色的创新形式,旨在将逼真的视频直接渲染为动漫风格。在视频风格化中,现有的方法遇到了持续的挑战,特别是在保持一致性和实现高视觉质量方面。在本文中,我们将卡通着色问题建模为四个子问题:风格化、一致性增强、结构指导和着色。为了解决视频风格化的挑战,我们提出了一种有效的卡通着色方法,称为 textit Diffutoon 。 Diffutoon 能够渲染非常详细、高分辨率且持续时间较长的动漫风格视频。它还可以通过附加分支根据提示编辑内容。 Diffutoon 的功效是通过定量指标和人工评估来评估的。值得注意的是,在我们的实验中,Diffutoon 超越了开源和闭源基线方法。

FIMP: Future Interaction Modeling for Multi-Agent Motion Prediction
Authors Sungmin Woo, Minjung Kim, Donghyeong Kim, Sungjun Jang, Sangyoun Lee
多智能体运动预测是自动驾驶中的一个关键问题,但由于动态智能体的模糊意图及其复杂的交互,它仍然是一个挑战。现有研究试图通过使用历史时间步长中的确定数据来捕获道路实体之间的相互作用,因为未来信息不可用并且涉及高度不确定性。然而,如果没有足够的指导来捕获交互代理的未来状态,它们经常会产生不切实际的轨迹重叠。在这项工作中,我们提出了运动预测 FIMP 的未来交互建模,它以端到端的方式捕获潜在的未来交互。 FIMP采用未来解码器,在中间特征级别隐式提取潜在的未来信息,并通过未来亲和力学习和top k过滤策略识别交互实体对。

Reconstructing Close Human Interactions from Multiple Views
Authors Qing Shuai, Zhiyuan Yu, Zhize Zhou, Lixin Fan, Haijun Yang, Can Yang, Xiaowei Zhou
本文解决了重建由多个校准相机捕获的进行密切交互的多个个体的姿势的挑战性任务。困难来自于人际遮挡导致的噪声或错误的 2D 关键点检测、由于密切交互而将关键点与个人关联起来的严重模糊性以及训练数据的稀缺性,因为在拥挤的场景中收集和注释运动数据是资源密集型的。我们引入了一种新颖的系统来应对这些挑战。我们的系统集成了基于学习的姿态估计组件及其相应的训练和推理策略。姿势估计组件将多视图 2D 关键点热图作为输入,并使用 3D 条件体积网络重建每个个体的姿势。由于网络不需要图像作为输入,我们可以利用测试场景中已知的相机参数和大量现有的运动捕捉数据来合成大量训练数据,模拟测试场景中的真实数据分布。大量的实验表明,我们的方法在姿势准确性方面显着超越了以前的方法,并且可以推广到各种相机设置和人群规模。

LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs
Authors Shaoxiang Chen, Zequn Jie, Lin Ma
对各种图像文本指令数据进行指令微调是获得通用的多模态大语言模型MLLM的关键,指令数据的不同配置可以导致具有不同能力的微调模型。然而,我们发现,当混合来自不同域的指令数据时,数据冲突是不可避免的,这可能导致特定域的任务的性能下降。为了解决这个问题,我们建议应用 LoRA 专家的稀疏混合来对 MLLM 进行指令微调。在 Transformer 层中,我们通过专门为 MLP 层创建一组 LoRA 专家来扩展流行的低秩自适应 LoRA 方法,并根据路由函数将每个令牌路由到前 1 个专家,从而允许对来自不同域的令牌进行自适应选择。由于 LoRA 专家是稀疏激活的,因此与原始 LoRA 方法相比,训练和推理成本大致保持不变。通过替换 LLaVA 1.5 的普通 LoRA 微调,我们的最终模型被命名为 LLaVA MoLE。大量实验证明,LLaVA MoLE 有效缓解了将多个不同的指令数据集与各种配置混合时的数据冲突问题,并在强大的普通 LoRA 基线上实现了一致的性能增益。

Spatial-Aware Latent Initialization for Controllable Image Generation
Authors Wenqiang Sun, Teng Li, Zehong Lin, Jun Zhang
最近,文本到图像扩散模型已经表现出令人印象深刻的能力,可以根据文本输入生成高质量图像。然而,这些模型很难准确遵守有关空间布局信息的文本指令。虽然之前的研究主要集中在将交叉注意力图与布局条件对齐,但他们忽略了初始化噪声对布局指导的影响。为了实现更好的布局控制,我们建议在去噪过程中利用空间感知初始化噪声。具体来说,我们发现具有有限反转步骤的反转参考图像包含有关对象位置的有价值的空间意识,从而在生成的图像中产生相似的布局。基于这一观察,我们开发了一个开放词汇框架,为每个布局条件定制空间感知初始化噪声。除了初始化噪声之外,无需修改其他模块,我们的方法可以作为即插即用模块无缝集成到其他免培训布局指导框架中。我们在可用的稳定扩散模型和 COCO 数据集上定量和定性地评估我们的方法。

Divide and Conquer: Rethinking the Training Paradigm of Neural Radiance Fields
Authors Rongkai Ma, Leo Lebrat, Rodrigo Santa Cruz, Gil Avraham, Yan Zuo, Clinton Fookes, Olivier Salvado
神经辐射场 NeRF 在合成 3D 场景的高保真视图方面表现出了潜力,但 NeRF 的标准训练范例预设了训练集中每个图像的同等重要性。这种假设对渲染呈现复杂几何形状的特定视图提出了重大挑战,从而导致性能不佳。在本文中,我们仔细研究了当前训练范例的含义,并重新设计它,以通过 NeRF 获得更出色的渲染质量。根据输入视图的视觉相似性将输入视图分为多个组,并在每个组上训练单独的模型,使每个模型能够专注于特定区域,而无需牺牲速度或效率。随后,这些专门模型的知识通过师生蒸馏范例聚合成单个实体,从而实现在线渲染的空间效率。根据经验,我们在两个公开可用的数据集(即 NeRF 合成数据集和 Tanks Temples)上评估了我们的新颖训练框架。

CIMIL-CRC: a clinically-informed multiple instance learning framework for patient-level colorectal cancer molecular subtypes classification from H\&E stained images
Authors Hadar Hezi, Matan Gelber, Alexander Balabanov, Yosef E. Maruvka, Moti Freiman
结直肠癌 CRC 的治疗方法高度依赖于分子亚型,因为免疫疗法在微卫星不稳定 MSI 病例中显示出疗效,但对微卫星稳定 MSS 亚型无效。利用深度神经网络 DNN 通过分析苏木精和曙红 H E 染色的全玻片图像 WSI 来自动区分 CRC 亚型,具有广阔的前景。由于 WSI 规模庞大,通常会探索多实例学习 MIL 技术。然而,现有的 MIL 方法侧重于识别最具代表性的图像块进行分类,这可能会导致关键信息的丢失。此外,这些方法常常忽视临床相关信息,例如 MSI 类肿瘤主要发生在近端右侧结肠的趋势。我们引入了 CIMIL CRC,这是一个 DNN 框架,它 1 通过有效地将预训练的特征提取模型与主成分分析 PCA 相结合来聚合来自所有斑块的信息来解决 MSI MSS MIL 问题,2 集成临床先验,特别是结肠内的肿瘤位置,纳入模型以提高患者级别分类的准确性。我们使用来自 TCGA CRC DX 队列模型开发的 5 倍交叉验证实验设置的曲线下平均面积 AUC 评估了我们的 CIMIL CRC 方法,并将其与基线补丁级别分类、仅 MIL 方法和临床知情补丁级别进行对比分类方法。我们的 CIMIL CRC 优于所有方法 AUROC 0.92 pm0.002 95 CI 0.91 0.92 、0.79 pm0.02 95 CI 0.76 0.82 、0.86 pm0.01 95 CI 0.85 0.88 和 0.87 pm0.01 95 CI 0.86 0.88 。

DeFlow: Decoder of Scene Flow Network in Autonomous Driving
Authors Qingwen Zhang, Yi Yang, Heng Fang, Ruoyu Geng, Patric Jensfelt
场景流估计通过预测场景中点的运动来确定场景的 3D 运动场,尤其适用于辅助自动驾驶任务。许多以大规模点云作为输入的网络使用体素化来创建实时运行的伪图像。然而,体素化过程通常会导致点特定特征的丢失。这给场景流任务恢复这些特征带来了挑战。我们的论文介绍了 DeFlow,它使用门控循环单元 GRU 细化实现从基于体素的特征到点特征的过渡。为了进一步增强场景流估计性能,我们制定了一种新颖的损失函数,该函数可以解释静态点和动态点之间的数据不平衡。对 Argoverse 2 场景流任务的评估表明,DeFlow 在大规模点云数据上取得了最先进的结果,表明我们的网络与其他网络相比具有更好的性能和效率。

Towards Scenario Generalization for Vision-based Roadside 3D Object Detection
Authors Lei Yang, Xinyu Zhang, Jun Li, Li Wang, Chuang Zhang, Li Ju, Zhiwei Li, Yang Shen
路边感知可以将感知能力扩展到视觉范围之外并解决盲点,从而大大提高自动驾驶汽车的安全性。然而,当前最先进的基于视觉的路边检测方法在标记场景上具有高精度,但在新场景上表现较差。这是因为路边摄像头安装后保持静止,只能收集单个场景的数据,导致算法过度拟合这些路边背景和摄像头姿势。为了解决这个问题,在本文中,我们提出了一种基于视觉的路边 3D 物体检测的创新场景泛化框架,称为 SGV3D。具体来说,我们采用背景抑制模块 BSM,通过在 2D 到鸟瞰图投影期间衰减背景特征来减轻以视觉为中心的管道中的背景过度拟合。此外,通过使用来自新场景的未标记图像引入半监督数据生成管道 SSDG,生成具有不同相机姿势的多样化实例前景,解决了过度拟合特定相机姿势的风险。我们在两个大规模路边基准上评估我们的方法。与 DAIR V2X I 异源基准上的 BEVHeight 相比,我们的方法在新场景中大幅超越了之前的所有方法,其中车辆为 42.57,行人为 5.87,骑自行车者为 14.89。在更大规模的 Rope3D 异源基准测试中,我们在汽车上取得了 14.48 的显着增益,在大型车辆上取得了 12.41 的显着增益。我们渴望为路边感知技术的探索提供见解,强调其场景泛化的能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值