【cs.CV】25.1.11 arxiv更新速递

25.1.10 12:00 - 25.1.11 12:00 共更新99 篇

—第1篇----

=====

Decentralized Diffusion Models

🔍 关键词: cs.CV, cs.DC, cs.LG
链接1

摘要: 大规模的人工智能模型训练通常将工作分配到数千个GPU上,并在每一步同步它们的梯度。这会带来显著的网络负担,只有集中式的单块集群才能支持,从而增加基础设施成本并加剧电力系统压力。我们提出了去中心化的扩散模型,这是一种可扩展的框架,用于在独立的集群或数据中心之间分布扩散模型训练,通过消除对集中式高带宽网络结构的依赖。我们的方法在数据集的分区上训练一组专家扩散模型,每个模型彼此完全隔离。在推理时,专家通过一个轻量级路由器进行集成。我们证明了这个集成共同优化了与在整个数据集上训练的单一模型相同的目标。这意味着我们可以将训练负担分摊到多个“计算岛”上,降低基础设施成本并提高对局部GPU故障的弹性。去中心化的扩散模型使研究人员能够利用更小、更具成本效益且更易获取的计算资源,如按需GPU节点,而不是集中的集成系统。我们在ImageNet和LAION Aesthetics上进行了广泛的实验,显示去中心化的扩散模型在FLOP对FLOP的情况下优于标准的扩散模型。我们最终将该方法扩展到240亿参数,证明高质量的扩散模型现在可以在不到一周的时间内,仅使用八个独立GPU节点进行训练。
总结: 本文提出了一种去中心化的扩散模型训练框架,通过分布式训练和专家集成,降低了基础设施成本并提高了模型训练的弹性和效率。
###【arXiv编号】2501.05450v2
###【git】
###【期刊】
###【领域】计算机视觉、分布式计算、机器学习

[推荐指数:4]

推荐理由

该研究创新性地提出了去中心化的扩散模型训练方法,显著降低了基础设施成本并提升了模型训练的效率和弹性,具有较高的实用性和推广价值。


—第2篇----

=====

VideoAuteur: Towards Long Narrative Video Generation

🔍 关键词: 视频生成, 长叙事, 烹饪视频数据集, 视觉-语言模型, 语义一致性
项目主页
PDF链接

摘要: 最近的视频生成模型在生成持续数秒的高质量视频剪辑方面展示了有希望的结果。然而,这些模型在生成能够传达清晰和有信息量事件的长序列时面临挑战,限制了它们支持连贯叙事的能力。在本文中,我们提出了一个大规模的烹饪视频数据集,旨在推进烹饪领域的长篇叙事生成。我们使用最先进的视觉-语言模型(VLMs)和视频生成模型验证了所提数据集在视觉保真度和文本标题准确性方面的质量。我们进一步引入了一种长篇叙事视频导演,以增强生成视频的视觉和语义一致性,并强调对齐视觉嵌入在实现整体视频质量提升中的作用。我们的方法在生成视觉细节丰富且语义对齐的关键帧方面表现出显著改进,这得益于在视频生成过程中整合文本和图像嵌入的微调技术。
总结: 本文通过引入大规模烹饪视频数据集和长篇叙事视频导演,显著提升了长叙事视频生成的视觉和语义一致性。
###【arXiv编号】arXiv:2501.06173v1
###【期刊】无
###【领域】计算机视觉, 视频生成

[推荐指数:4]

推荐理由

该研究在长叙事视频生成领域提出了创新的方法,通过大规模数据集和视觉-语言模型的结合,显著提升了生成视频的质量和一致性,具有很高的实用价值,适合进一步研究和应用。


—第3篇----

=====

PySpatial: 一个高速的全切片图像路径组学工具箱

🔍 关键词: eess.IV, cs.CV
链接1

摘要: 全切片图像(WSI)分析在现代数字病理学中发挥着关键作用,能够从组织样本中进行大规模特征提取。然而,基于CellProfiler等工具的传统特征提取流程通常涉及冗长的工作流程,需要将WSI分割成补丁,在补丁级别进行特征提取,然后再映射回原始WSI。为了解决这些挑战,我们提出了PySpatial,一个专为WSI级别分析设计的高速路径组学工具箱。PySpatial通过直接操作计算兴趣区域,简化了传统流程,减少了冗余处理步骤。利用基于rtree的空间索引和基于矩阵的计算,PySpatial高效地映射和处理计算区域,大幅加速了特征提取,同时保持了高精度。我们在两个数据集——血管周上皮样细胞(PEC)和肾脏精密医学项目(KPMP)数据上进行了实验,展示了显著的性能提升。对于PEC数据集中较小和稀疏的对象,PySpatial相比标准的CellProfiler流程实现了近10倍的速度提升。对于KPMP数据集中的较大对象,如肾小球和动脉,PySpatial实现了2倍的速度提升。这些结果突显了PySpatial在处理大规模WSI分析方面具有提升效率和准确性的潜力,为数字病理学的更广泛应用铺平了道路。
总结: PySpatial通过优化WSI分析流程,实现了显著的速度提升,为数字病理学的大规模应用提供了高效且准确的解决方案。

###【arXiv编号】2501.06151v1
###【领域】数字病理学

[推荐指数:4]

推荐理由

PySpatial工具箱通过引入基于rtree的空间索引和矩阵计算,显著提升了全切片图像分析的效率,具有较高的创新性和实用性,适用于数字病理学领域的研究和应用。


—第4篇----

=====

文章名称

Multi-subject Open-set Personalization in Video Generation

🔍 关键词: 视频个性化, 多主题, 开放集, 扩散转换器, 视频生成
PDF链接

摘要: 视频个性化方法允许我们合成具有特定概念(如人物、宠物和地点)的影片。然而,现有方法通常专注于有限的领域,需要针对每个主题进行耗时的优化,或仅支持单一主题。我们提出了Video Alchemist —— 一种具有内置多主题、开放集个性化能力的视频模型,适用于前景对象和背景,消除了耗时的测试时间优化需求。我们的模型基于新的扩散转换器模块,将每个条件参考图像及其相应的主题级文本提示与交叉注意力层融合。在开发如此大型模型时面临两个主要挑战:数据集和评估。首先,由于参考图像和视频的配对数据集极难收集,我们从选定的视频帧中抽样作为参考图像,并合成目标视频的片段。然而,虽然模型在训练视频给定参考帧时可以轻松去噪,但在新情境中却无法很好泛化。为缓解这一问题,我们设计了一个新的自动数据构建管道,配合广泛的图像增强。其次,开放集视频个性化本身就是一个挑战。为解决这一问题,我们引入了一个个性化基准,专注于准确的主题保真度,并支持多样化的个性化场景。最后,我们的大量实验证明,我们的方法在定量和定性评估中都显著优于现有的个性化方法。
总结: Video Alchemist模型通过多主题开放集个性化能力显著提升视频个性化方法的性能,克服了现有方法的局限。

###【arXiv编号】
2501.06187v1

###【git】
暂无

###【期刊】
预印本

###【领域】
计算机视觉

[推荐指数:4]

推荐理由

该研究提出了创新的Video Alchemist模型,显著提升了视频个性化的多主题和开放集能力,解决了现有方法的多项限制,具有较高的实用性和创新性。


—第5篇----

=====

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

🔍 关键词: 视觉推理, 大型语言模型, 多步骤推理, 计算机视觉
PDF链接

摘要: 推理是解决复杂多步骤问题的基本能力,特别是在视觉环境中,顺序逐步的理解至关重要。现有方法缺乏一个全面的框架来评估视觉推理,并且不强调逐步解决问题。为此,我们提出了一个全面的框架,通过三个主要贡献来推进大型语言模型(LMMs)的逐步视觉推理。首先,我们引入了一个专门设计用于评估多步骤推理任务的视觉推理基准。该基准呈现了一组多样的挑战,涵盖从复杂的视觉感知到科学推理的八个不同类别,总计超过4000个推理步骤,使得对大型语言模型在多个步骤中的准确和可解释视觉推理能力进行稳健评估成为可能。其次,我们提出了一种新的度量标准,在个别步骤的粒度上评估视觉推理质量,强调正确性和逻辑一致性。所提出的度量标准相比传统的端任务准确性指标提供了更深入的推理性能洞察。第三,我们提出了一种新的多模态视觉推理模型,命名为LlamaV-o1,采用多步骤课程学习方法进行训练,其中任务被逐步组织以促进增量技能获取和问题解决。所提出的LlamaV-o1旨在进行多步骤推理,并通过结构化的训练范式逐步学习。大量实验表明,我们的LlamaV-o1优于现有的开源模型,并与封闭源的专有模型表现相当。与最近的Llava-CoT相比,我们的LlamaV-o1在六个基准测试中平均得分为67.3,绝对提升了3.8%,同时在推理规模上速度提升了5倍。我们的基准、模型和代码已公开。

总结: 本文提出了一个全面的框架和新模型LlamaV-o1,显著提升了大型语言模型在多步骤视觉推理任务中的性能和效率。

###【arXiv编号】2501.06186v1
###【git】
###【期刊】
###【领域】计算机视觉

[推荐指数:5]

推荐理由

该研究通过引入新的基准、度量标准和模型,显著推进了大型语言模型在多步骤视觉推理中的能力,表现出较高的创新性和实用性,且已公开资源具有良好的可复现性。


—第6篇----

=====

PEACE: Empowering Geologic Map Holistic Understanding with MLLMs

🔍 关键词: 无
PDF链接

摘要: 地质图作为地质科学中的基础图表,提供了地球地下和地表结构与组成的关键见解。这些图在灾害检测、资源勘探和土木工程等多个领域是不可或缺的。尽管其重要性,当前的多模态大型语言模型(MLLMs)在地质图理解方面常常表现不足。这一差距主要由于地图制图泛化的挑战性,包括处理高分辨率地图、管理多个关联组件以及需要领域特定知识。为了量化这一差距,我们构建了GeoMap-Bench,这是首个用于评估MLLMs在地质图理解方面的基准,评估其在提取、引用、定位、推理和分析方面的全方位能力。为缩小这一差距,我们引入了GeoMap-Agent,这是首个针对地质图理解设计的代理,包含三个模块:层级信息提取(HIE)、领域知识注入(DKI)和提示增强问答(PEQA)。受到人类科学家跨学科合作的启发,一个AI专家组作为顾问,利用多样的工具池全面分析问题。通过全面实验,GeoMap-Agent在GeoMap-Bench上获得了0.811的总分,显著高于GPT-4o的0.369分。我们的工作,通过MLLMs赋能PEACE,实现了地质图的整体理解,为地质学中的先进AI应用铺平了道路,提升了地质调查的效率和准确性。
总结: 本文提出了GeoMap-Bench基准和GeoMap-Agent代理,显著提升了多模态大型语言模型在地质图理解领域的表现。
###【arXiv:2501.06184v1】
###【无】
###【无】
###【计算机科学 - 计算机视觉,计算机科学 - 多媒体;地质学,灾害检测,资源勘探,土木工程】

[推荐指数:5]

推荐理由

本文首次构建了地质图理解的基准和专用代理,显著提升了MLLMs在相关领域的表现,具有高度的创新性和实用性。


—第7篇----

=====

Guess What I Think: Streamlined EEG-to-Image Generation with Latent Diffusion Models

🔍 关键词: cs.CV, cs.AI, cs.LG
链接1

摘要: 从脑电波生成图像正受到越来越多的关注,因为它有潜力通过理解脑信号如何编码视觉线索来促进脑机接口(BCI)系统的发展。大部分文献集中在fMRI到图像的任务上,因为fMRI具有高空间分辨率。然而,fMRI是一种昂贵的神经成像模式,且不支持实时BCI。另一方面,脑电图(EEG)是一种低成本、非侵入性和便携的神经成像技术,使其成为未来实时应用的有吸引力的选择。然而,由于EEG的低空间分辨率以及易受噪声和伪影的干扰,生成图像变得更加困难。在本文中,我们提出了一种基于ControlNet适配器的简化框架,通过EEG信号来调节潜在扩散模型(LDM),以解决这些问题。我们在流行的基准上进行了实验和消融研究,证明所提出的方法优于其他最先进的模型。与这些方法通常需要大量的预处理、预训练、不同的损失函数和标题模型不同,我们的方法高效且直接,仅需最少的预处理和几个组件。代码可在https://github.com/LuigiSigillo/GWIT获取。
总结: 本文提出了一种基于EEG信号和潜在扩散模型的高效图像生成方法,优于现有模型。
###【arXiv编号】2410.02780v2
###【git】https://github.com/LuigiSigillo/GWIT
###【期刊】
###【领域】脑机接口、图像生成、神经成像

[推荐指数:4]

推荐理由

该研究在基于EEG信号的图像生成领域引入了高效且创新的潜在扩散模型方法,显著优于现有最先进模型,具有良好的实用性和应用潜力。


—第8篇----

=====

Two Stage Segmentation of Cervical Tumors using PocketNet

🔍 关键词: cs.CV, cs.AI, cs.LG
PDF Link

摘要: 宫颈癌仍然是全球女性中第四常见的恶性肿瘤。同步化疗放疗(CRT)是局部晚期宫颈癌的主要根治治疗方案,包括外束放射和随后使用近距离放疗。放射治疗计划的重要组成部分是常规描绘子宫颈水平的靶肿瘤、相关的妇科解剖结构以及邻近的风险器官(OAR)。然而,手动描绘这些结构既费时又费力,而且存在已知的观察者间差异,这可能影响治疗效果。虽然已经开发了多种工具来使用计算机断层扫描(CT)图像自动分割OAR和高风险临床肿瘤体积(HR-CTV),但使用常规T2加权(T2w)磁共振成像(MRI)开发基于深度学习的肿瘤分割工具满足了未满足的临床需求,能够改善解剖结构和宫颈癌的常规描绘,从而提高放射治疗计划的质量和一致性。本研究应用了一种新型深度学习模型(PocketNet)在T2w MRI上分割子宫颈、阴道、子宫和肿瘤。通过5折交叉验证对PocketNet架构的性能进行了评估。PocketNet在肿瘤分割方面实现了超过70%的平均Dice-Sorensen相似系数(DSC),在器官分割方面超过80%。这些结果表明,PocketNet对于对比协议的变化具有鲁棒性,能够可靠地分割感兴趣区域。
总结: 本文提出了一种基于PocketNet的深度学习模型,有效地在T2w MRI上自动分割宫颈肿瘤及相关解剖结构,展示了其在提高放疗计划一致性和质量方面的潜力。

###【arXiv:2409.11456v2】

###【git】

###【期刊】

###【领域】计算机视觉、人工智能、机器学习

[推荐指数:4]

推荐理由

PocketNet模型在宫颈肿瘤和相关器官的自动分割中表现出较高的准确性和鲁棒性,具有显著的临床应用潜力,尽管在创新性方面仍有进一步提升的空间,因此给予4分的推荐指数。


—第9篇----

=====

MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection

🔍 关键词: 时序动作检测, 多尺度时序建模, Mamba架构, Transformer
PDF链接

摘要: 在真实世界场景中,小时级未剪辑视频中密集分布的动作使得动作检测尤其具有挑战性。它需要对短期和长期的时序关系进行建模,同时处理显著的同类内部时序变化。之前的最先进(SOTA)基于Transformer的架构虽然有效,但由于其高参数数量、GPU内存使用和有限的吞吐量,使其在实际部署中不实用,尤其对于非常长的视频。在这项工作中,我们创新性地调整了Mamba架构用于动作检测,并提出了多尺度时序Mamba(MS-Temba),包括两个关键组件:时序Mamba(Temba)块和时序Mamba融合器。Temba块包括用于短范围时序建模的时序局部模块(TLM)和用于长期依赖关系的膨胀时序SSM(DTS)。通过引入膨胀,Mamba的一个新概念,TLM和DTS在多个尺度上捕捉局部和全局特征。Temba融合器使用Mamba聚合这些特定尺度的特征,以学习未剪辑视频的全面多尺度表示。MS-Temba在三个公共数据集上得到验证,在长视频上超过了SOTA方法,在短视频上与之前的方法持平,同时仅使用了之前的八分之一参数。
总结: 本文提出了一种高效的多尺度时序Mamba架构,显著提升了长期视频中动作检测的性能,并大幅减少了模型参数。

###【arXiv编号】2501.06138
###【git】
###【期刊】
###【领域】计算机视觉, 智慧交通

[推荐指数:4]

推荐理由

MS-Temba在动作检测领域展示了创新的多尺度时序建模方法,兼具高效性和实用性,特别适用于处理长视频,具有较高的应用价值和研究潜力,因此给予4星推荐。

=====

—第10篇----

=====

Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey

🔍 关键词: cs.CV, cs.AI, cs.CL, cs.LG, cs.RO
PDF链接

摘要: 多模态视觉语言模型(VLMs)已成为计算机视觉和自然语言处理交叉领域的一项变革性技术,使机器能够通过视觉和文本两种模态感知和推理世界。例如,CLIP、Claude 和 GPT-4V 等模型在视觉和文本数据上的推理和理解能力强于传统的单模态视觉模型,特别是在零样本分类方面表现出色。尽管 VLMs 在研究上快速发展并在应用中越来越受欢迎,但对于希望在特定领域利用 VLMs 的研究人员来说,现有关于 VLMs 的综合调查明显不足。因此,我们系统性地概述了过去五年(2019-2024)开发的主要 VLMs 的模型信息;这些 VLMs 的主要架构和训练方法;VLMs 的流行基准和评估指标的总结与分类;VLMs 在具身代理、机器人和视频生成等方面的应用;当前 VLMs 面临的如幻觉、公平性和安全性等挑战和问题。详细的论文和模型仓库链接列在 https://github.com/zli12321/Awesome-VLM-Papers-And-Models.git
总结: 本文系统综述了大型视觉语言模型的评估、应用及挑战,提供了全面的研究和应用指导。
###【arXiv编号】2501.02189v2
###【git】https://github.com/zli12321/Awesome-VLM-Papers-And-Models.git
###【期刊】arXiv
###【领域】计算机视觉,人工智能,自然语言处理,机器学习,机器人学

[推荐指数:4]

推荐理由

该综述全面系统地总结了大型视觉语言模型的最新进展、应用及面临的挑战,对于研究人员和工程师具有较高的参考价值。


—第11篇----

=====

Pixel Is Not A Barrier: An Effective Evasion Attack for Pixel-Domain Diffusion Models

🔍 关键词: 扩散模型, 对抗攻击, 像素域, 图像编辑, 计算机视觉
链接1

摘要: 扩散模型已成为高质量图像生成的强大工具,许多后续的图像编辑技术基于它们。然而,基于文本的图像编辑的便捷性带来了显著的风险,如用于诈骗或侵犯知识产权的恶意编辑。以前的研究尝试通过添加不可察觉的扰动来保护图像免受基于扩散的编辑,但这些方法成本高昂,且专门针对流行的潜在扩散模型(LDMs),而像素域扩散模型(PDMs)在这方面尚未得到充分探索并且对这些攻击具有鲁棒性。我们的工作通过提出一种新颖的攻击框架AtkPDM填补了这一空白。AtkPDM主要包括利用去噪UNets漏洞的特征表示攻击损失和增强对抗图像自然性的潜在优化策略。大量实验证明了我们的方法在攻击主流基于PDM的编辑方法(如SDEdit)方面的有效性,同时保持了合理的保真度,并对常见的防御方法具有鲁棒性。此外,我们的框架可扩展到LDMs,达到与现有方法相当的性能。
总结: 本文提出了一种针对像素域扩散模型的新颖对抗攻击框架AtkPDM,能够有效攻击主流图像编辑方法并保持图像质量。

###【arXiv编号】2408.11810v2
###【git】无
###【期刊】未发表
###【领域】计算机视觉

[推荐指数:4]

推荐理由

该研究在生成模型的安全性方面提出了创新性的攻击方法,具有较高的实用价值,但实际应用中的防御机制仍需进一步探索和验证。


—第12篇----

=====

Self-Supervised Masked Mesh Learning for Unsupervised Anomaly Detection on 3D Cortical Surfaces

🔍 关键词: 自监督学习, 掩蔽网格学习, 无监督异常检测, 3D皮层表面, 脑影像
PDF链接

摘要: 脑影像中的无监督异常检测具有挑战性。本文提出了一种自监督的掩蔽网格学习方法,用于3D皮层表面的无监督异常检测。我们的框架利用皮层表面的内在几何结构,学习一种自监督表示,捕捉大脑的基本结构。我们引入了一种掩蔽网格卷积神经网络(MMN),用于预测皮层表面的掩蔽区域。通过在大规模健康个体数据集UKB和HCP-Aging上训练MMN,我们学习到捕捉皮层表面正常变化的表示。然后,我们使用这种表示通过计算MMN的重建误差来检测未见个体中的异常。我们在阿尔茨海默病患者的数据集ADNI和OASIS3上测试,评估我们的框架。结果表明,我们的框架可以检测皮层厚度、皮层体积和皮层沟特征的异常,这些特征已知是阿尔茨海默病的敏感生物标志物。我们提出的框架基于皮层特征的规范性变化,为无监督异常检测提供了一种有前景的方法。
总结: 本文提出了一种基于自监督掩蔽网格学习的框架,有效用于3D皮层表面的无监督异常检测,特别适用于阿尔茨海默病的脑影像分析。
###【arXiv编号】2412.05580v2
###【期刊】
###【领域】计算机视觉, 电子工程信号处理

[推荐指数:4]

推荐理由

该研究创新性地将自监督学习应用于脑影像的异常检测,具有较高的实用性和创新潜力,但创新性需要进一步验证。


—第13篇----

=====

Atlas: 一种新型病理基础模型

🔍 关键词: 无
链接1

摘要: 最近数字病理学的进展表明,基础模型在各类应用中表现出色。在本报告中,我们介绍了Atlas,这是一种基于RudolfV方法的新型视觉基础模型。我们的模型在来自两家医疗机构(Mayo Clinic 和 Charité - Universitätmedizin Berlin)的120万份病理全幻灯片图像的数据集上进行了训练。全面评估表明,尽管Atlas的参数数量和训练数据集规模都不是最大的,但在21个公共基准数据集上仍实现了最先进的性能。总结: Atlas模型在病理学视觉分析中实现了领先的性能,尽管其规模不如其他模型。

###【arXiv:2501.05409v2】
###【git】: 无
###【期刊】: 无
###【领域】: 计算机视觉, 人工智能, 数字病理学

[推荐指数:4]

推荐理由

Atlas作为一种新型的病理基础模型,在多个公共基准数据集上表现优异,展示了其在数字病理学中的创新性和实用性。


—第14篇----

=====

Improving Medical Visual Representations via Radiology Report Generation

🔍 关键词: 视觉-语言预训练, CNN编码器, Transformer解码器, 放射学, 双向描述, 医学图像分析
链接1

摘要: 视觉-语言预训练已被证明能够生成高质量的视觉编码器,这些编码器能够高效地转移到下游的计算机视觉任务。对比学习方法已越来越多地被采用用于医学视觉语言预训练(MVLP),然而生成性人工智能的最新发展为新的建模选择提供了可能。本文介绍了RadTex,一种针对放射学优化的CNN编码器-Transformer解码器架构。我们探索了双向描述作为一种替代的MVLP策略,并证明了RadTex的描述预训练与已建立的对比方法具有竞争力,达到89.4%的CheXpert宏观AUC。此外,RadTex的轻量级文本解码器不仅生成临床相关的放射学报告(macro-F1分数为0.349),还提供了有针对性、交互式的响应,凸显了双向描述在推进医学图像分析中的实用性。
总结: 本文介绍了RadTex,一种优化放射学应用的CNN-Transformer架构,通过双向描述的预训练策略在医学图像分析中表现出与传统对比方法竞争的性能,并生成临床相关报告。
###【arXiv编号】2310.19635v2
###【git】
###【期刊】
###【领域】计算机科学,计算机视觉

[推荐指数:4]

推荐理由

RadTex提出了一种新颖的CNN-Transformer架构及双向描述预训练策略,在医学图像分析中展示了出色的性能和应用潜力,具有较高的创新性和实用性。


—第15篇----

=====

ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

🔍 关键词: 零样本, 对象合成, 图像内在, 扩散模型, ControlNet, 稳定扩散, 3D集成
链接1

摘要: 我们提出了ZeroComp,这是一种有效的零样本3D对象合成方法,不需要在训练期间使用配对的合成场景图像。我们的方法利用ControlNet从内在图像进行条件调节,并结合Stable Diffusion模型利用其场景先验,共同作为一个有效的渲染引擎。在训练过程中,ZeroComp使用基于几何体、反照率和遮罩阴影的内在图像,全部无需配对的有和无合成对象的场景图像。一旦训练完成,它就能无缝地将虚拟3D对象集成到场景中,调整阴影以创建逼真的合成效果。我们开发了一个高质量的评估数据集,并展示了ZeroComp在定量和人类感知基准测试中优于使用显式照明估计和生成技术的方法。此外,ZeroComp可以扩展到真实和户外图像合成,即使仅在合成室内数据上进行训练,也展示了其在图像合成中的有效性。
总结: ZeroComp通过结合ControlNet和稳定扩散模型,实现了无需配对图像的零样本3D对象合成,效果优于现有方法。

###【arXiv编号】2410.08168v2
###【git】
###【期刊】
###【领域】计算机科学,计算机视觉

[推荐指数:4]

推荐理由

ZeroComp方法创新性地结合了ControlNet与Stable Diffusion模型,实现了高效且无需配对图像的3D对象合成,在各项评估中表现优异,具有较高的应用潜力。


—第16篇----

=====

Self-supervised video pretraining yields robust and more human-aligned visual representations

🔍 关键词: 视频预训练, 视觉表征, 自监督学习, 对比框架
PDF链接

摘要: 人类通过观察对象和场景随时间的演变来学习强大的表征。然而,除非需要明确的时间理解的特定任务,否则静态图像预训练仍然是学习视觉基础模型的主导范式。我们质疑这种不匹配,探讨视频预训练是否可以产生具有符合人类感知特征的视觉表征:跨任务的泛化、对扰动的鲁棒性以及与人类判断的一致性。为此,我们提出了一种新的视频策划程序,并开发了一个对比框架,从中学习复杂的转换。这个用于从视频中蒸馏知识的简单范式,称为VITO,在图像理解任务上大大超过了先前的视频预训练方法,并在视频理解任务上超过了图像预训练方法。此外,VITO的表征在自然和合成变形下比图像、视频和对抗性训练的表征更具鲁棒性。最后,VITO的预测与人类判断高度一致,超过了那些专门为此目的训练的模型。总之,这些结果表明,视频预训练可能是学习统一、鲁棒且与人类一致的视觉世界表征的简单方法。
总结: VITO视频预训练方法显著提升了视觉表征的泛化能力和鲁棒性,且与人类判断高度一致。

###【arXiv编号】2210.06433v3
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 机器学习

[推荐指数:4]

推荐理由

VITO方法在多个视觉理解任务中表现优异,具备高鲁棒性和与人类判断的一致性,展现出较高的创新性和实用性。

=====

—第17篇----

=====

文章名称

FaceMe: Robust Blind Face Restoration with Personal Identification

🔍 关键词: cs.CV
PDF链接

摘要: 盲面部修复是一个高度病态的问题,因为缺乏必要的上下文。尽管现有方法能够生成高质量的输出,但它们常常无法忠实地保留个人的身份信息。本文提出了一种基于扩散模型的个性化面部修复方法——FaceMe。给定一张或几张参考图像,我们使用身份编码器提取与身份相关的特征,这些特征作为提示,引导扩散模型恢复高质量且身份一致的面部图像。通过简单地组合身份相关特征,我们有效地在训练过程中最小化身份无关特征的影响,并在推理过程中支持任意数量的参考图像输入。此外,得益于身份编码器的鲁棒性,合成的图像可以在训练过程中用作参考图像,且在推理过程中改变身份无需对模型进行微调。我们还提出了一种构建参考图像训练池的流程,该流程模拟了现实场景中可能出现的姿态和表情。实验结果表明,我们的FaceMe能够在保持身份一致性的同时恢复高质量的面部图像,实现了出色的性能和鲁棒性。

总结: FaceMe通过使用身份编码器引导扩散模型,实现了高质量且身份一致的盲面部修复,展示了优异的性能和鲁棒性。

###【arXiv编号】2501.05177v2

###【git】

###【期刊】

###【领域】计算机视觉,图像处理,面部识别

[推荐指数:4]

推荐理由

FaceMe提出了一种基于扩散模型且能够有效保持身份一致性的盲面部修复方法,具有高度的鲁棒性和实用性,适用于多种实际应用场景。

=====

—第18篇----

=====

BIV-Priv-Seg: 定位视觉障碍人士所拍摄图像中的私人内容

🔍 关键词: 视觉障碍, 隐私保护, 图像分割, 计算机视觉
PDF链接

摘要: 盲人或低视力人士(BLV)如果分享他们拍摄的照片,可能更容易泄露私人信息。为促进开发能够帮助他们保护隐私的技术,我们推出了BIV-Priv-Seg,这是第一个源自视觉障碍人士的私人内容定位数据集,包含1,028张带有16类私人对象分割标注的图像。我们首先对BIV-Priv-Seg进行了特征描述,并评估了现代模型在定位数据集中私人内容的表现。研究发现,现代模型在定位不显著、较小且无文字的私人对象,以及识别图像中是否不存在私人内容时表现最为困难。我们通过在https://vizwiz.org/tasks-and-datasets/object-localization上分享我们的新数据集,以促进未来的扩展。

总结: 该研究提出了一个新的私人内容定位数据集,并评估了现代模型在帮助视觉障碍人士保护隐私方面的表现。

###【arXiv编号】: 2407.18243v3

###【git】: 无

###【期刊】: 无

###【领域】: 计算机视觉

[推荐指数:4]

推荐理由

该数据集创新性地来源于视觉障碍人士,具有高实用性,有助于提升隐私保护技术的发展。

=====

—第19篇----

=====

Advances in Diffusion Models for Image Data Augmentation: A Review of Methods, Models, Evaluation Metrics and Future Research Directions

🔍 关键词: cs.CV, cs.AI
链接1

摘要: 图像数据增强是现代计算机视觉任务中的关键方法,因为它可以提高训练数据集的多样性和质量,从而提升下游任务中机器学习模型的性能和鲁棒性。与此同时,增强方法还可用于上下文和语义感知的方式编辑/修改给定图像。扩散模型(DMs)作为生成性人工智能(AI)领域中最新且颇具前景的方法类别之一,已经成为图像数据增强的强大工具,能够通过学习底层数据分布生成逼真且多样的图像。本研究对基于DM的图像增强方法进行了系统、全面且深入的回顾,涵盖了广泛的策略、任务和应用。具体而言,首先对DM的基本原理、模型架构和训练策略进行了全面分析。随后,介绍了相关图像增强方法的分类法,重点关注语义操作、个性化与适应性以及特定应用的增强任务等技术。然后,对性能评估方法和相应评估指标进行了分析。最后,讨论了该领域目前的挑战和未来的研究方向。
总结: 本文系统回顾了扩散模型在图像数据增强中的方法、模型、评估指标以及未来研究方向,探讨了其在计算机视觉任务中的应用和潜力。

###【arXiv编号】2407.04103v2
###【git】暂无
###【期刊】暂无
###【领域】计算机视觉、人工智能

[推荐指数:4]

推荐理由

本文全面系统地回顾了扩散模型在图像数据增强中的应用,具有较高的创新性和实用性,对于研究者了解该领域的现状与未来发展方向具有重要参考价值。


—第20篇----

=====

Dr. Tongue: Sign-Oriented Multi-label Detection for Remote Tongue Diagnosis

🔍 关键词: 舌诊, 远程医疗, 多标签检测, 图像处理, 机器学习
PDF链接

摘要: 舌诊是西医和传统中医的重要工具,通过分析舌头特征来提供患者健康的关键见解。COVID-19疫情加剧了对准确远程医疗评估的需求,强调了通过远程医疗精确识别舌头特征的重要性。为此,我们提出了一种基于标志的多标签属性检测框架。我们的方法始于一个自适应的舌头特征提取模块,该模块标准化舌头图像并减轻环境因素的影响。随后是一个标志导向网络(SignNet),它模仿经验丰富的从业者的诊断过程,识别特定的舌头属性,从而实现全面的健康评估。为了验证我们的方法,我们开发了一个专门为远程医疗设计的大规模舌头图像数据集。与现有数据集不同,我们的数据集专为远程诊断量身定制,具有全面的属性标签。该数据集将公开提供,成为研究的宝贵资源。初步测试表明,该框架在检测各种舌头属性方面提高了准确性,突显了其作为远程医疗评估的重要工具的潜力。
总结: 本文提出了一种用于远程舌诊的多标签检测框架,并通过专门的数据集验证了其在提高识别准确性方面的有效性。

###【arXiv编号】2501.03053v2
###【期刊】无
###【领域】计算机视觉,电子工程

[推荐指数:4]

推荐理由

该研究在远程医疗舌诊领域提出了创新性的多标签检测方法,并通过专门的数据集验证了其实际应用价值,具有较高的创新性和实用性。

=====

—第21篇----

=====

Enhancing, Refining, and Fusing: Towards Robust Multi-Scale and Dense Ship Detection

🔍 关键词: 计算机视觉, 合成孔径雷达, 船舶检测, 多尺度检测, 密集检测
PDF链接

摘要: 合成孔径雷达(SAR)成像以其高分辨率、全天候能力和昼夜操作性而备受推崇,是海事应用不可或缺的技术。然而,SAR影像中的船舶检测面临诸多挑战,包括复杂的背景、密集排列的目标和大规模变化。为了解决这些问题,我们提出了一种新颖的框架——以中心为关注点的SAR船舶检测器(CASS-Det),旨在实现稳健的多尺度和密集船舶检测。CASS-Det集成了三个关键创新:(1)中心增强模块(CEM)利用旋转卷积突出船舶中心,改善定位并抑制背景干扰;(2)邻近注意力模块(NAM)利用跨层依赖关系在密集场景中细化船舶边界;(3)交叉连接的特征金字塔网络(CC-FPN)通过整合浅层和深层特征,增强多尺度特征融合。在SSDD、HRSID和LS-SSDD-v1.0数据集上的广泛实验展示了CASS-Det的先进性能,特别是在检测多尺度和密集排列的船舶方面表现出色。
总结: 提出了一种新颖的SAR船舶检测框架CASS-Det,有效应对多尺度和密集排列船舶检测的挑战,性能优越。

###【arXiv:2501.06053v1】
###【git】
###【期刊】
###【领域】: 计算机视觉, 海事应用

[推荐指数:4]

推荐理由

CASS-Det通过创新模块设计,显著提升了SAR影像中船舶的多尺度和密集检测能力,具有较高的创新性和实用性。


—第22篇----

=====

MSCViT: A Small-size ViT architecture with Multi-Scale Self-Attention Mechanism for Tiny Datasets

🔍 关键词: Vision Transformer (ViT)、多尺度自注意机制、小规模数据集
链接1

摘要: Vision Transformer(ViT)在各种视觉任务中展示了显著的潜力,这归功于其在建模长程依赖关系方面的强大能力。然而,这种成功在很大程度上依赖于在大量样本上的训练。在实际应用中,往往无法获得大规模的数据集,如果仅在小规模数据集(称为Tiny数据集)上训练,ViT的表现会逊于卷积神经网络(CNN),因为它需要大量的训练数据来确保其表示能力。本文提出了一种具有多尺度自注意机制和卷积块的小型ViT架构(称为MSCViT),以在每一层建模不同尺度的注意力。首先,我们引入了小波卷积,通过频率划分选择性地将获得的高频成分与我们的卷积通道相结合,以提取局部特征。然后,开发了一种轻量级多头注意模块,以减少tokens的数量和计算成本。最后,将骨干网络中的位置编码(PE)替换为局部特征提取模块。与原始ViT相比,该模型参数效率更高,特别适用于Tiny数据集。在Tiny数据集上进行了广泛的实验,我们的模型在CIFAR-100上达到84.68%的准确率,参数量为14.0M,GFLOPs为2.5,且无需在大规模数据集上进行预训练。
总结: 该研究提出了一种适用于小规模数据集的多尺度自注意力ViT架构,显著提升了ViT在Tiny数据集上的性能。
###【arXiv编号】2501.06040v1
###【git】
###【期刊】
###【领域】计算机视觉

[推荐指数:4]

推荐理由

提出了一种高效且创新的ViT架构,能够在小规模数据集上实现优异表现,具有较高的实用性和研究价值。


—第23篇----

=====

AI驱动的虚拟组织:基于空间蛋白质组学的临床诊断与生物医学发现

🔍 关键词: 空间蛋白质组学, 虚拟组织, Transformer架构, 临床诊断, 生物医学发现
链接1

摘要: 空间蛋白质组学技术通过实现多种分子标记及其空间组织的同时分析,改变了我们对复杂组织结构的理解。这些数据的高维度、实验中标记组合的多样性以及异构的研究设计为计算分析带来了独特的挑战。在此,我们提出了虚拟组织(VirTues),这是一个跨分子、细胞和组织尺度的生物组织基础模型框架。VirTues在Transformer架构设计上引入了创新,包括一种新颖的标记化方案,能够捕捉空间和标记维度,以及能够扩展到高维多重数据且保持可解释性的注意力机制。在多样的癌症和非癌症组织数据集上训练后,VirTues展示了强大的泛化能力,无需任务特定的微调,能够实现跨研究分析和新标记整合。作为一个通用模型,VirTues在临床诊断、生物发现和患者案例检索任务中优于现有方法,同时提供了对组织功能和疾病机制的洞见。

总结: VirTues通过创新的Transformer架构显著提升了空间蛋白质组学在临床诊断和生物医学研究中的应用效果。

###【arXiv编号】2501.06039v1

###【git】

###【期刊】

###【领域】计算机科学、人工智能、定量生物学

[推荐指数:5]

推荐理由

VirTues在处理高维空间蛋白质组学数据方面表现出色,提供了跨尺度的分析能力和强大的泛化性能,显著推动了临床诊断和生物医学研究的进展,具有高度的创新性和实用价值。

=====

—第24篇----

=====

A Holistically Point-guided Text Framework for Weakly-Supervised Camouflaged Object Detection

🔍 关键词: 无
PDF Link

摘要: 弱监督伪装目标检测(WSCOD)因其能够使用弱标签训练模型以分割与周围环境视觉融合的目标而受到关注。最近,一些使用稀疏标注监督的方法通过在WSCOD中进行涂抹显示出有希望的结果,而基于点文本监督的方法尚未得到充分研究。因此,本文提出了一种新颖的整体点指导文本框架用于WSCOD,分为三个阶段:分割、选择、训练。具体来说,我们提出了点指导的候选生成(PCG),其中点的前景作为文本路径的修正,以在掩码生成过程中明确地修正和更新检测目标的损失(SEGMENT)。我们还引入了合格候选鉴别器(QCD),使用CLIP从给定的文本提示中选择最佳掩码(CHOOSE),并使用所选的伪掩码通过自监督视觉变换器进行训练(TRAIN)。此外,我们开发了新的点监督数据集(P2C-COD)和文本监督数据集(T-COD)。在四个基准数据集上的综合实验表明,我们的方法大幅优于最先进的方法,并且也优于一些现有的全监督伪装目标检测方法。
总结: 本文提出了一个创新的点文本指导框架,显著提升了弱监督伪装目标检测的效果。
###【arXiv:2501.06038】
###【领域】: 计算机视觉

[推荐指数:4]

推荐理由

该研究在弱监督伪装目标检测领域引入了全新的点文本指导方法,并通过全面实验验证了其优越性,具有较高的创新性和实用价值。


—第25篇----

=====

Nonisotropic Gaussian Diffusion for Realistic 3D Human Motion Prediction

🔍 关键词: 人体运动预测, 隐空间扩散模型, 非各向同性高斯扩散, 骨架结构
项目页面
PDF链接

摘要: 人体运动的概率预测旨在基于过去的观察预测多种可能的未来动作。尽管当前的方法报告了高多样性和逼真性,但它们通常会生成肢体伸展和抖动未被检测到的动作。为了解决这个问题,我们引入了SkeletonDiffusion,这是一种在其架构和训练中嵌入了人体显式归纳偏差的隐空间扩散模型。我们的模型采用了一种新颖的非各向同性高斯扩散公式进行训练,与人体骨架的自然运动结构保持一致。结果表明,我们的方法优于传统的各向同性替代方案,始终生成逼真的预测,同时避免了诸如肢体扭曲等伪影。此外,我们发现常用的多样性指标存在一个限制,可能会无意中偏向于在同一序列中产生不一致肢体长度的模型。SkeletonDiffusion在三个真实世界的数据集上设立了新的基准,在多个评估指标上超越了各种基线方法。

总结: SkeletonDiffusion模型通过非各向同性高斯扩散方法,有效提升了3D人体运动预测的逼真性和一致性。

###【arXiv编号】2501.06035v1

###【git】无

###【期刊】arXiv预印本

###【领域】计算机视觉

[推荐指数:4]

推荐理由

该研究在人体运动预测领域提出了创新性的SkeletonDiffusion模型,解决了现有方法中常见的肢体变形和抖动问题,且在多个真实数据集上表现优异,具有较高的实用性和研究价值。


—第26篇----

=====

文章名称

🔍 关键词: 零样本学习, 视觉语言模型, 传导学习, CLIP
链接1

摘要: 视觉语言模型的传导性零样本学习利用数据集中图像间的相似性,相比于归纳设置能够实现更高的分类准确率。然而,在此背景下对语言空间结构的研究甚少。我们提出了GTA-CLIP,这是一种新颖的方法,结合语言模型的监督信息,在语言和视觉空间中进行联合传导。我们的方法是迭代的,包含三个步骤:(i) 通过查询语言模型逐步探索属性空间,(ii) 基于属性增强的传导性推理过程,(iii) 根据数据集中推断的标签对语言和视觉编码器进行微调。通过使用CLIP编码器的实验,我们证明GTA-CLIP在零样本设置下,在12个数据集和3种编码器上,相较于CLIP和传导性CLIP,平均性能分别提升了8.6%和3.7%。在少样本设置中,我们也观察到了类似的提升。我们还进行了消融研究,展示了每个步骤的价值,并可视化了传导性学习驱动下视觉和语言空间在迭代过程中的演变。
总结: 本文提出了一种结合语言模型监督信息的迭代传导方法,有效提升了视觉语言模型在零样本学习中的分类性能。
###【arXiv:2501.06031v1】
###【git】无
###【期刊】无
###【领域】计算机视觉

[推荐指数:4]

推荐理由

该研究通过创新性地结合语言模型的监督信息,显著提升了视觉语言模型在零样本和少样本学习中的表现,具有较高的学术价值和实际应用潜力。


—第27篇----

=====

Geometric-Based Nail Segmentation for Clinical Measurements

🔍 关键词: Nail Segmentation, Clinical Measurements, Hough Transform, Watershed Transform, Computer Vision
PDF链接

摘要: 提出了一种稳健的分割方法,可用于对趾甲进行测量。该方法作为临床试验中的第一步,旨在客观量化特定病理的发生率。为了进行评估,有必要区分在局部上与皮肤相似的趾甲。使用霍夫变换定位脚趾尖端,估计趾甲的位置和大小。随后,基于几何和光度信息对图像的超像素进行分类。然后,利用分水岭变换勾勒出趾甲的边界。该方法通过348张医学数据集进行验证,达到0.993的准确率和0.925的F-measure。所提出的方法对趾甲形状、皮肤色素沉着、光照条件以及受病理影响的大片区域的外观等因素具有相当的鲁棒性。
总结: 该研究提出了一种用于临床测量的稳健趾甲分割方法,具有高准确性和广泛的适应性。
###【arXiv编号】2501.06027v1
###【领域】计算机视觉,医疗影像

[推荐指数:4]

推荐理由

该方法在趾甲分割上展现出高准确性和鲁棒性,对于临床测量具有显著的应用价值,但在创新性方面有一定局限。

=====

—第28篇----

=====

文章名称

A Steerable Deep Network for Model-Free Diffusion MRI Registration

🔍 关键词: 非刚性配准, 扩散MRI, 深度学习, S E ( 3 ) \mathsf{SE}(3) SE(3)-协变UNet, 最大均值差异
链接1

摘要: 非刚性配准对于医学图像分析至关重要,但由于扩散MRI(dMRI)的高维和方向依赖特性,仍然具有挑战性。虽然经典方法精确,但计算需求较高,而深度神经网络虽然高效,但在非刚性dMRI配准方面的研究相较于结构成像仍然不足。本文提出了一种新颖的深度学习框架,用于原始扩散MRI数据的无模型非刚性配准,无需显式重新定向。不同于依赖衍生表示(如扩散张量或纤维方向分布函数)的先前方法,我们的方法将配准表述为位置和方向空间的协变微分同胚。方法的核心是一个 S E ( 3 ) \mathsf{SE}(3) SE(3)-协变的UNet,能够生成速度场,同时保持原始dMRI域的几何特性。我们引入了一种基于傅里叶空间最大均值差异的新损失函数,隐式匹配图像间的集合平均传播子。在Human Connectome Project dMRI数据上的实验结果表明,本文方法在性能上与最先进的方法具有竞争力,并且具有绕过估计衍生表示的额外优势。这项工作为在采集空间内进行数据驱动、几何感知的dMRI配准奠定了基础。

总结: 本文提出了一种基于 S E ( 3 ) \mathsf{SE}(3) SE(3)-协变UNet的深度学习框架,实现了无需模型和衍生表示的高效扩散MRI非刚性配准,为医学图像分析提供了新的方法基础。

###【arXiv编号】
2501.04794v2

###【git】

###【期刊】

###【领域】

  • 医学图像分析
  • 计算机视觉
  • 机器学习

[推荐指数:4]

推荐理由

该研究创新性地将 S E ( 3 ) \mathsf{SE}(3) SE(3)-协变网络应用于扩散MRI的非刚性配准,提供了无需依赖衍生表示的方法,具有较高的实用性和技术创新性,适合在相关领域进一步探索和应用。

=====

—第29篇----

=====

BRIGHT: A globally distributed multimodal building damage assessment dataset with very-high-resolution for all-weather disaster response

🔍 关键词: 计算机视觉, 人工智能, 图像与视频处理, 信号处理
PDF链接

摘要: 灾害事件在全球范围内发生,对人类生命和财产造成重大损失。地球观测(EO)数据能够实现快速且全面的建筑物损伤评估(BDA),这是灾害发生后减少人员伤亡和指导救灾工作的重要能力。近期的研究集中于开发人工智能模型,以实现对未见灾害事件的准确绘制,主要使用光学EO数据。然而,基于光学数据的解决方案仅限于晴天和白天,阻碍了对灾害的及时响应。整合多模态(MM)EO数据,特别是光学和合成孔径雷达(SAR)图像的组合,使得全天候、昼夜的灾害响应成为可能。尽管具有这种潜力,但稳健的多模态AI模型的发展受到合适基准数据集缺乏的限制。本文提出了一个使用高分辨率光学和SAR图像的建筑物损伤评估数据集(BRIGHT),以支持基于AI的全天候灾害响应。据我们所知,BRIGHT是首个开放访问的、全球分布的、事件多样的多模态数据集,专门为支持基于AI的灾害响应而策划。它涵盖了全球12个地区的五种自然灾害和两种人为灾害,特别关注最需要外部援助的发展中国家。BRIGHT中的光学和SAR图像,空间分辨率介于0.3-1米之间,提供了单个建筑物的详细表示,使其非常适合精确的建筑物损伤评估。在实验中,我们测试了七种先进的AI模型,这些模型使用我们的BRIGHT进行了训练,以验证其可迁移性和稳健性。数据集和代码可在https://github.com/ChenHongruixuan/BRIGHT获取。BRIGHT也作为2025年IEEE GRSS数据融合竞赛的官方数据集。

总结: BRIGHT是首个全球分布的开放访问多模态高分辨率建筑损伤评估数据集,支持全天候和多灾种的AI灾害响应。

【arXiv:2501.06019】

【git】: https://github.com/ChenHongruixuan/BRIGHT

【期刊】: 无

【领域】: 计算机视觉, 人工智能, 图像与视频处理, 信号处理

【推荐指数:5】

推荐理由

BRIGHT填补了多模态AI灾害响应领域的空白,提供了高分辨率和全球覆盖的数据,支持全天候灾害评估,具有高度的创新性和实用价值,适用于学术研究和实际应用。


—第30篇----

=====

Pose-independent 3D Anthropometry from Sparse Data

🔍 关键词: 3D数字人体测量, 计算机视觉, 稀疏数据, 姿势独立
PDF链接

摘要: 3D数字人体测量是从3D扫描中估计人体测量数据的研究。精确的身体测量对于医疗行业是重要的健康指标,同时也是时尚、人体工程学和娱乐行业的指导因素。测量协议包括在静态A姿势下扫描整个被扫描者,在扫描过程中保持无呼吸或无动作。然而,A姿势在整个扫描过程中难以维持,这个过程甚至可能持续几分钟。这一限制会影响扫描的最终质量,进而影响依赖于密集几何数据的方法所获得的身体测量的准确性。此外,这一限制使得无法为无法采取A姿势的受试者(如有伤病或残障人士)开发数字人体测量方法。我们提出了一种可以从任何姿势下获取的稀疏标记点中获得身体测量的方法。我们利用被姿势化受试者的稀疏标记点创建姿势独立的特征,并训练一个网络来预测标准A姿势下的身体测量。我们显示了我们的方法与使用标准A姿势下密集几何数据的竞争方法相比,取得了相当的结果,但具有仅使用稀疏标记点在任何姿势下估计身体测量的能力。最后,我们通过将我们的方法开放给研究社区,解决了开源3D人体测量方法的缺乏问题,地址为https://github.com/DavidBoja/pose-independent-anthropometry。
总结: 提出了一种利用稀疏数据在任何姿势下进行3D人体测量的方法,具有与现有密集数据方法相当的精度,并开源共享以促进研究。
###【arXiv编号】2501.06014v1
###【git】https://github.com/DavidBoja/pose-independent-anthropometry
###【期刊】无
###【领域】计算机视觉, 3D人体测量

[推荐指数:4]

推荐理由

该研究在3D人体测量领域取得创新突破,通过稀疏数据实现姿势独立测量,提升了应用的灵活性和实用性,并且提供了开源工具,利于社区进一步研究和应用。


—第31篇----

=====

ViM-Disparity: Bridging the Gap of Speed, Accuracy and Memory for Disparity Map Generation

🔍 关键词: 视差图生成, 实时模型, 准确性, 计算开销, Visual Mamba (ViM)
PDF链接

摘要: 在本研究中,我们提出了一种基于Visual Mamba (ViM)的架构,旨在解决视差图生成(DMG)模型在实时性和准确性之间的权衡,并实现低计算开销。此外,我们提出了一种性能评估方法,可以同时评估DMG模型的推理速度、计算开销和准确性。代码实现及相应的模型可在以下链接获得:https://github.com/MBora/ViM-Disparity.
总结: 该研究提出了一种基于ViM的视差图生成架构,兼顾实时性、准确性和低计算开销,并提供了相关代码和模型。
###【arXiv:2412.16745v2】
###【https://github.com/MBora/ViM-Disparity】
###【未发表】
###【计算机视觉】

[推荐指数:4]

推荐理由

该研究提出了一种新的ViM架构,解决了实时性、准确性和计算开销之间的权衡问题,并提供了开源代码,具有很高的实用价值和研究意义。


—第32篇----

=====

CamCtrl3D: Single-Image Scene Exploration with Precise 3D Camera Control

🔍 关键词: cs.CV
PDF链接

摘要: 我们提出了一种从单张图像和给定相机轨迹生成场景飞行视频的方法。我们基于图像到视频的潜在扩散模型,在UNet去噪器上结合了相机轨迹,采用了四种技术。(1) 类似于MotionCtrl,我们将UNet的时间块与原始相机外部参数进行条件化。(2) 我们使用包含相机光线和方向的图像,类似于CameraCtrl。(3) 我们将初始图像重新投影到后续帧,并使用生成的视频作为条件。(4) 我们使用2D<=>3D转换器引入全局3D表示,隐式地以相机姿态为条件。我们将所有条件结合在一个ControlNet式的架构中。随后,我们提出了一个评估整体视频质量及在视角变化中保持细节能力的指标,并用它来分析各个条件及其组合的权衡。最后,我们确定了条件的最佳组合。我们在数据集中校准相机位置,以确保跨场景的比例一致性,并训练了我们的场景探索模型CamCtrl3D,展示了最先进的结果。
总结: 提出了一种基于单张图像和相机轨迹生成高质量3D场景飞行视频的方法,取得了最先进的效果。
###【arXiv编号】
arXiv:2501.06006v1
###【git】

###【期刊】

###【领域】
计算机视觉

[推荐指数:4]

推荐理由

该研究在单图生成飞行视频方面具有创新性,并展示了优秀的性能,具有较高的应用价值。


—第33篇----

=====

SeMi: When Imbalanced Semi-Supervised Learning Meets Mining Hard Examples

🔍 关键词: 半监督学习, 类别不平衡, 计算机视觉
链接1

摘要: 半监督学习(SSL)可以利用大量未标记数据来提升模型性能。然而,现实世界中的类别不平衡数据分布给 SSL 带来了巨大挑战,导致性能下降。现有的类别不平衡半监督学习(CISSL)方法主要关注重新平衡数据集,但忽略了使用难例来提升性能的潜力,即使采用复杂的算法,也难以充分利用未标记数据。为了解决这一问题,我们提出了一种通过挖掘难例提高不平衡半监督学习性能的方法(SeMi)。该方法通过区分难例和易例的 logits 的熵差异,从而识别难例并提高未标记数据的利用率,更好地解决了 CISSL 中的类别不平衡问题。此外,我们维护了一个带有置信度衰减的类别平衡记忆库,用于存储高置信度的嵌入以增强伪标签的可靠性。尽管我们的方法简单,但它有效且可以与现有方法无缝集成。我们在标准 CISSL 基准上进行了全面实验,实验证明我们提出的 SeMi 在多个基准上优于现有的最先进方法,特别是在反转场景中,我们的最佳结果比基线方法提高了约 54.8%。
总结: SeMi 方法通过挖掘难例并维护类平衡记忆库,有效提升了类别不平衡半监督学习的性能,并显著优于现有方法。
###【arXiv编号】
2501.06004v1
###【git】

###【期刊】

###【领域】
计算机视觉

[推荐指数:4]

推荐理由

该研究提出的方法简单有效,显著提升了类别不平衡半监督学习的性能,具有较高的创新性和实用性。


—第34篇----

=====

Self-Supervised Partial Cycle-Consistency for Multi-View Matching

🔍 关键词: 暂无关键词
链接1

摘要: 跨部分重叠摄像头视角中匹配对象在多摄像头系统中至关重要,这需要一个视角不变的特征提取网络。使用循环一致性训练这样的网络可以避免繁重的标注工作。在本文中,我们扩展了循环一致性的数学公式以处理部分重叠。然后,我们引入了一个伪掩码,引导训练损失考虑部分重叠。此外,我们提出了几种相互补充的新循环变体,并提出了一种时间发散的场景采样方案,改善了此自监督设置下的数据输入。在具有挑战性的DIVOTrack数据集上进行的跨摄像头匹配实验展示了我们方法的优点。与自监督的最先进方法相比,我们通过综合贡献实现了4.3个百分点更高的F1分数。我们的改进对训练数据中重叠减少具有鲁棒性,在需要在许多人之间进行少量匹配的挑战性场景中取得了显著的提升。使用我们的方法训练的自监督特征网络在各种多摄像头设置中有效地匹配对象,为大规模多摄像头场景理解等复杂任务提供了机会。
总结: 本文通过扩展循环一致性和引入伪掩码,实现了在部分重叠的多摄像头系统中自监督的对象匹配,显著提升了匹配性能。
###【arXiv编号】 arXiv:2501.06000v1
###【git】
###【期刊】
###【领域】 计算机视觉,多摄像头系统,自监督学习

[推荐指数:4]

推荐理由

本文在自监督学习与多摄像头对象匹配领域提出了创新性的方法,通过扩展循环一致性和引入伪掩码,提高了匹配性能,具有较高的创新性和实用价值。


—第35篇----

=====

Minimizing Occlusion Effect on Multi-View Camera Perception in BEV with Multi-Sensor Fusion

🔍 关键词: cs.CV
链接1

摘要: 自动驾驶技术正在迅速发展,提供了更安全和更高效的交通运输潜力。然而,这些系统的性能可能会因环境因素如污垢、灰尘、雨和雾等导致传感器被遮挡而显著受损。这些遮挡严重影响基于视觉的任务,如物体检测、车辆分割和车道识别。本文通过将nuScenes数据集的多视图摄像头图像的遮挡效果投影到鸟瞰图(BEV)域来研究各种类型的遮挡对摄像头传感器的影响。这种方法使我们能够分析遮挡在BEV域内如何空间分布并影响车辆分割的准确性。尽管传感器技术和多传感器融合有了显著进展,现有文献在摄像头遮挡对基于BEV的感知系统的具体影响方面仍存在空白。为填补这一空白,我们使用了一种多传感器融合技术,整合了LiDAR和雷达传感器数据,以减轻被遮挡摄像头引起的性能下降。我们的研究结果表明,这种方法显著提高了车辆分割任务的准确性和鲁棒性,从而使自动驾驶系统更加可靠。
总结: 本文通过多传感器融合技术有效减轻了多视角摄像头在BEV域下的遮挡影响,提升了自动驾驶系统中车辆分割的准确性和可靠性。
###【arXiv:2501.05997v1】
###【git】
###【期刊】
###【领域】
智能交通,自动驾驶

[推荐指数:4]

推荐理由

本文在减少自动驾驶系统中摄像头遮挡影响方面提出了创新的多传感器融合方法,具有较高的实用性和应用潜力,尽管在创新性上仍有进一步提升的空间。


—第36篇----

=====

An Attention-Guided Deep Learning Approach for Classifying 39 Skin Lesion Types

🔍 关键词: 皮肤病变、深度学习、注意机制、计算机视觉、分类、Vision Transformer, CBAM
论文链接

摘要: 皮肤作为人体最大的器官,容易受到各种状况的影响,这些状况被统称为皮肤病变,包括多种皮肤病。由于细微的视觉差异常常肉眼难以察觉,诊断这些病变对医疗从业者而言具有重大挑战。虽然并非所有皮肤病变都是威胁生命的,但某些类型可以作为严重疾病(包括皮肤癌)的早期指标,这凸显了及时准确诊断方法的关键需求。深度学习算法在促进皮肤病变的早期检测和预后方面表现出显著潜力。本研究通过整合来自五个公开数据集的39种皮肤病变类别,构建了一个全面而多样的数据集。利用该数据集,严格评估了五种最先进的深度学习模型——MobileNetV2、Xception、InceptionV3、EfficientNetB1和Vision Transformer的性能。为了提高这些模型的准确性和鲁棒性,将高效通道注意力(ECA)和卷积块注意力模块(CBAM)等注意机制融入其架构中。通过多个性能指标的综合评估表明,集成了CBAM的Vision Transformer模型优于其他模型,达到93.46%的准确率,94%的精确度,93%的召回率,93%的F1分数和93.67%的特异性。这些结果突显了所提系统在为医疗专业人员提供准确高效的预后工具以诊断广泛的皮肤病变方面的显著潜力。本研究使用的数据集和代码可在 GitHub 上找到。

总结: 该研究通过集成注意机制的深度学习模型显著提高了皮肤病变分类的准确性,为医疗诊断提供了有效支持。

###【arXiv编号】2501.05991v1

###【git】https://github.com/akabircs/Skin-Lesions-Classification

###【期刊】未提供

###【领域】计算机视觉、医疗诊断

[推荐指数:4]

推荐理由

该研究综合多种先进的深度学习模型及注意机制,成果在皮肤病变分类方面表现优异,具有较高的创新性和实用性,代码和数据公开,可供进一步研究参考。


—第37篇----

=====

Learning a Consensus Sub-Network with Polarization Regularization and One Pass Training

🔍 关键词: 绿色人工智能, 网络剪枝, 极化正则化, 一次性训练, 深度学习
PDF链接

摘要: 绿色人工智能在深度学习社区中日益受到关注,原因是近年来神经网络模型日益庞大和复杂。现有的减轻训练和推理时计算负担的解决方案通常涉及剪枝网络参数。剪枝方案往往通过静态剪枝的迭代训练和微调或动态剪枝图的重复计算,产生额外的开销。我们提出了一种新的参数剪枝策略,用于学习一个更轻量级的子网络,最大限度地减少能耗,同时在给定下游任务上保持与完全参数化网络相当的性能。我们提出的剪枝方案以绿色为导向,仅需一次性训练即可通过动态剪枝方法发现最佳的静态子网络。该剪枝方案包括一个二值门控模块和一个极化损失函数,以发掘具有用户定义稀疏性的子网络。我们的方法实现了剪枝和训练的同时进行,节省了训练和推理阶段的能源,并避免了推理时门控模块带来的额外计算开销。我们在CIFAR-10、CIFAR-100和Tiny Imagenet上的结果表明,我们的方案可以在深度网络中移除50%的连接,分类准确率下降不到1%。与其他相关剪枝方法相比,我们的方法在相同的计算成本减少下表现出更低的准确率下降。
总结: 本文提出了一种绿色导向的网络剪枝策略,通过一次性训练和极化正则化,实现了在保持高准确率的同时大幅减少网络参数和能耗。

###【arXiv编号】2302.10798v5
###【git】
###【期刊】
###【领域】计算机科学(机器学习,计算机视觉),绿色人工智能,深度学习优化

[推荐指数:4]

推荐理由

该研究在绿色人工智能领域提出了一种创新的网络剪枝方法,能够有效减少模型参数和能耗,同时保持较高的准确率,具有较高的实用价值和创新性,适合相关领域的研究和应用参考。


—第38篇----

=====

Swin-X2S: 通过Swin Transformer从二维双平面X射线重建3D形状

🔍 关键词: 计算机视觉, 深度学习, 3D重建, Swin Transformer, 医学影像
PDF链接 | 代码仓库

摘要: 从二维X射线转换为三维形状在提高诊断效率和安全性方面具有重要潜力。然而,现有的重建方法通常依赖于手工设计的特征、人工干预和先验知识,导致形状误差不稳定和额外的处理成本。在本文中,我们介绍了Swin-X2S,这是一种端到端的深度学习方法,能够直接从二维双平面正交X射线图像重建三维分割和标注。Swin-X2S采用编码器-解码器架构:编码器利用二维Swin Transformer提取X射线信息,而解码器则采用带有交叉注意力的三维卷积来整合来自正交视图的结构特征。引入了一个维度扩展模块,桥接编码器和解码器,确保从二维像素到三维体素的平滑转换。我们通过在涵盖四种解剖学(股骨、髋部、脊柱和肋骨)的九个公开数据集上进行广泛的定性和定量实验,评估了所提出的方法,共涉及54个类别。与之前的方法相比,我们的方法不仅在分割和标注指标上有显著改进,而且在临床实践中主要关注的临床相关参数上也表现出色,这证明了Swin-X2S在临床场景下提供有效的解剖形状重建选项的潜力。代码实现可在以下地址获取: https://github.com/liukuan5625/Swin-X2S

总结: Swin-X2S通过Swin Transformer实现了从二维双平面X射线图像到3D形状的高效重建,大幅提升了医学诊断的准确性和效率。

###【arXiv编号】2501.05961v1

###【git】https://github.com/liukuan5625/Swin-X2S

###【期刊】暂无

###【领域】计算机视觉, 医学影像

[推荐指数:4]

推荐理由

Swin-X2S提出了一种创新的端到端深度学习架构,利用Swin Transformer实现从二维X射线到三维形状的直接重建,显著提升了分割和标注的准确性,具有较高的创新性和实用性,适用于临床医疗影像分析。


—第39篇----

=====

Scalable Vision Language Model Training via High Quality Data Curation

🔍 关键词: 视觉语言模型, 数据策划, 预训练, 机器学习
链接1

摘要: 在本文中,我们介绍了SAIL-VL(通过高质量数据策划实现可扩展的视觉语言模型训练),一种具有20亿参数的开源视觉语言模型,性能达到最先进水平。我们提出了三个关键改进,这些改进促成了SAIL-VL的领先性能:(1) 可扩展的高质量视觉理解数据构建:我们实现了一个视觉理解数据构建流水线,使得亿级规模的高质量重命名数据注释成为可能。利用这一流水线,我们策划了SAIL-Caption,这是一个大规模的标题数据集,与开源标题数据集相比,具有更大的数量和最高的数据质量。(2) 使用高质量视觉理解数据进行可扩展的预训练:我们将SAIL-VL的预训练预算扩展到1310亿tokens,并表明即使是一个20亿参数的视觉语言模型也从扩大训练数据规模中受益,展示了视觉理解和指令遵循性能中预期的数据规模定律。(3) 通过数量和质量扩展进行可扩展的SFT:我们引入了一般性的指令数据策划指导,持续扩展指令数据,使我们能够构建一个具有最高质量的大规模SFT数据集。为了进一步提高SAIL-VL的性能,我们提出了质量扩展,这是一种采用课程学习的多阶段训练方案,以改进模型性能的扩展曲线,使其相对于数据规模从对数增长趋近于线性增长。SAIL-VL在我们评估的19个常用基准测试中获得了最高的平均分,并在OpenCompass(https://rank.opencompass.org.cn/leaderboard-multimodal)上的可比规模的VLM中实现了第一名。我们在HuggingFace上发布了我们的SAIL-VL-2B模型(https://huggingface.co/BytedanceDouyinContent/SAIL-VL-2B)。
总结: 本文通过高质量的数据策划和扩展预训练方法,成功训练出具有最先进性能的可扩展视觉语言模型SAIL-VL。

###【arXiv编号】2501.05952v1
###【git】https://huggingface.co/BytedanceDouyinContent/SAIL-VL-2B
###【期刊】
###【领域】计算机视觉, 自然语言处理, 机器学习, 视觉语言模型

[推荐指数:5]

推荐理由

该文在视觉语言模型训练中提出了创新性的数据策划和预训练方法,通过大规模高质量数据提高了模型性能,并在多个基准测试中取得最优成绩,具有高度的创新性和实用性。


—第40篇----

=====

Strip R-CNN: Large Strip Convolution for Remote Sensing Object Detection

🔍 关键词: 遥感, 目标检测, Strip卷积, R-CNN
链接1

摘要: 尽管遥感目标检测得到了快速发展,但检测高宽比目标仍然具有挑战性。本文展示了大尺寸Strip卷积在遥感目标检测中的特征表示学习能力,并能够有效检测各种宽高比的目标。在大尺寸Strip卷积的基础上,我们构建了一种新的网络架构,称为Strip R-CNN,该架构简单、高效且强大。与最近利用方形大核卷积的遥感目标检测器不同,Strip R-CNN利用顺序正交的大尺寸Strip卷积来捕捉空间信息。此外,我们通过分离检测头,并为定位头配备Strip卷积,以增强遥感目标检测器的定位能力,从而更好地定位目标对象。在多个基准数据集(如DOTA、FAIR1M、HRSC2016和DIOR)上的广泛实验表明,Strip R-CNN能够大幅提升先前的工作。值得注意的是,我们的30M模型在DOTA-v1.0上实现了82.75%的mAP,创下了新的最先进记录。代码可在 https://github.com/YXB-NKU/Strip-R-CNN 获取。
总结: Strip R-CNN通过大尺寸Strip卷积显著提升了遥感目标检测的性能,尤其在处理高宽比目标方面表现出色。

###【arXiv编号】2501.03775v3

###【git】https://github.com/YXB-NKU/Strip-R-CNN

###【期刊】

###【领域】计算机视觉,遥感

[推荐指数:5]

推荐理由

Strip R-CNN在遥感目标检测领域提出了创新性的Strip卷积方法,并在多个基准数据集上设定了新记录,展示了其高创新性和实用性。


—第41篇----

=====

Reusable specimen-level inference in computational pathology

🔍 关键词: eess.IV, cs.CV, q-bio.TO
PDF链接

摘要: 计算病理学的基础模型在标本级任务中显示出巨大潜力,并且对研究人员日益开放。然而,基于这些基础模型构建的标本级模型仍然很少,这限制了它们的更广泛应用和影响。为了解决这一问题,我们开发了SpinPath,这是一套旨在通过提供预训练的标本级模型库、基于Python的推理引擎和基于JavaScript的推理平台来普及标本级深度学习的工具包。我们在九个基础模型的转移瘤检测任务中展示了SpinPath的实用性。SpinPath可能促进可重复性,简化实验,并加速计算病理学研究中标本级深度学习的采用。总结: SpinPath工具包通过提供预训练模型和便捷的推理平台,促进了计算病理学中标本级深度学习的广泛应用。

###【arXiv编号】2501.05945v1

###【git】

###【期刊】

###【领域】计算病理学、计算机视觉、量化生物学

[推荐指数:4]

推荐理由

SpinPath通过提供多种预训练的标本级模型和易用的推理工具,有效降低了计算病理学研究中深度学习模型的使用门槛,具有较高的创新性和实用性,有助于提升研究的可重复性和效率。


—第42篇----

=====

Dolphin: 通过思考、实践与反馈实现闭环开放式自动研究

🔍 关键词: 人工智能, 计算语言学, 计算机视觉
链接1

摘要: 科学研究范式正在经历由人工智能(AI)发展引发的深刻转变。近期研究表明,各种AI辅助的研究方法可以通过改进数据分析、加速计算和促进新思想生成,大大提高研究效率。为了进一步迈向终极目标(即自动化科学研究),本文提出了Dolphin,这是首个闭环开放式自动研究框架,旨在构建人类科学研究的整个过程。Dolphin能够生成研究思路、执行实验,并根据实验结果反馈生成更高质量的思路。具体而言,Dolphin首先基于按主题和任务属性排序的相关论文生成新颖的研究思路。然后,代码通过异常回溯指导的本地代码结构自动生成和调试。最后,Dolphin自动分析每个思路的结果,并将结果反馈给下一轮思路生成。实验在不同主题的基准数据集上进行,结果显示Dolphin能够持续生成新颖的思路并循环完成实验。我们强调,Dolphin能够自动提出在某些任务(如二维图像分类和三维点分类)中与最先进方法相当的方法。

总结: Dolphin框架通过闭环自动化流程显著提升了科研效率,实现了与最先进技术相当的研究成果。

###【arXiv编号】2501.03916v2
###【git】
###【期刊】
###【领域】计算机科学

[推荐指数:4]

推荐理由

Dolphin作为首个闭环开放式自动研究框架,展示了AI在提升科研效率和生成新颖研究思路方面的巨大潜力,具有高度的创新性和实用性。

=====

—第43篇----

=====

Class Distance Weighted Cross Entropy Loss for Classification of Disease Severity

🔍 关键词:
链接1

摘要: 评估涉及序数类别的疾病严重程度,其中每个类别代表逐渐增加的严重程度,受益于考虑这种序数结构的损失函数。传统的分类损失函数,如交叉熵(CE),在这些情况下往往表现不佳。为了解决这一问题,我们提出了一种新颖的损失函数,类距离加权交叉熵(CDW-CE),它在类别距离较远时对误分类惩罚更严厉。我们在Labeled Images for Ulcerative Colitis(LIMUC)数据集上使用各种深度架构评估了CDW-CE的性能。其性能与几种分类和序数损失函数进行了比较。为了分析潜在表示的质量,我们使用了t分布随机邻域嵌入(t-SNE)可视化并通过轮廓系数(Silhouette Score)量化其聚类情况。我们还比较了使用CDW-CE和CE损失训练的模型生成的类激活图(CAM),并结合领域专家的反馈来评估其与专家知识的一致性。我们的结果表明,CDW-CE在序数图像分类任务中始终提高了性能。它实现了更高的轮廓系数,表明类别表示的区分性更好,其CAM可视化显示出更强的关注临床重要区域,这一点得到了领域专家的确认。
总结: CDW-CE损失函数在序数图像分类任务中提高了分类性能和类别表示的区分性,并更好地对齐了临床重要区域。

###【arXiv编号】2412.01246v2
###【git】
###【期刊】
###【领域】计算机视觉

[推荐指数:4]

推荐理由

本研究提出了一种新颖的损失函数CDW-CE,针对序数类别的疾病严重度分类任务显著提升了分类性能和类别表示的区分性,并得到了临床专家的认可,展示出较高的创新性和实用性。


—第44篇----

=====

A Multimodal Dataset for Enhancing Industrial Task Monitoring and Engagement Prediction

🔍 关键词: 多模态数据集, 工业任务监控, 参与度预测, 人机协作, 计算机视觉
PDF Link

摘要: 在动态工业工作流程中,检测和解释操作员的动作、参与度和物体交互仍然是人机协作研究中的重大挑战,特别是在复杂的现实环境中。传统的单一模态方法常常无法捕捉这些无结构工业环境的复杂性。为了解决这一问题,我们提出了一个新颖的多模态工业活动监控(MIAM)数据集,该数据集捕捉了真实的组装和拆卸任务,促进了关键元任务的评估,如动作定位、物体交互和参与度预测。该数据集包括22个会话收集的多视角RGB、深度和惯性测量单元(IMU)数据,总计290分钟的未经剪辑的视频,并详细注释了任务执行和操作员行为。其独特之处在于整合了多种数据模态,并强调了现实、未经剪辑的工业工作流程,这对于推动人机协作和操作员监控研究至关重要。此外,我们提出了一个融合RGB帧、IMU数据和骨架序列的多模态网络,以预测工业任务中的参与度水平。我们的方法提高了参与状态识别的准确性,为动态工业环境中操作员性能监控提供了一个稳健的解决方案。该数据集和代码可从https://github.com/navalkishoremehta95/MIAM/获取。
总结: 该研究通过引入多模态数据集和融合网络,显著提升了工业任务中操作员参与度的监控与预测能力。
###【arXiv编号】2501.05936v1
###【git】https://github.com/navalkishoremehta95/MIAM/
###【期刊】
###【领域】计算机视觉

[推荐指数:4]

推荐理由

该论文提出了一个多模态数据集,并结合创新的融合网络,有助于提升工业任务监控和参与度预测的研究,实用性和创新性较高,但尚需进一步验证其在实际应用中的表现。


—第45篇----

=====

CloudTrack: Scalable UAV Tracking with Cloud Semantics

🔍 关键词: cs.RO, cs.CV
链接1

摘要: 如今,无人机(UAV)在搜索与救援场景中被广泛用于收集搜索区域的信息。在航空视频中自动识别被搜索的人员可以提高系统的自主性,缩短搜索时间,从而增加失踪人员的生存机会。本文提出了一种新颖的方法,用于执行语义条件的开放词汇对象跟踪,专门设计以应对无人机硬件的限制。我们的方法具有多个优点。它可以通过口头描述(例如衣服的颜色)来运行,不需要专门的训练即可执行任务,并且能够有效跟踪可能移动的人员。我们的实验结果证明了该方法的多样性和有效性。
总结: 提出了一种适用于受限无人机硬件的语义条件开放词汇对象跟踪方法,提升了搜索与救援任务的效率和自主性。

###【arXiv编号】arXiv:2409.16111v2
###【git】
###【期刊】
###【领域】计算机视觉,机器人学,智能交通

[推荐指数:4]

推荐理由

该研究在无人机跟踪领域提出了创新的方法,具有实际应用价值,能够显著提升搜索与救援任务的效率,适合相关领域的进一步研究和应用。

=====

—第46篇----

=====

Weakly Supervised Segmentation of Hyper-Reflective Foci with Compact Convolutional Transformers and SAM2

🔍 关键词: 计算机视觉 (cs.CV)
PDF链接

摘要: 弱监督分割有潜力大幅减少训练用于小结构(如光学相干断层扫描中的高反射焦点(HRF))的分割模型的标注工作。然而,大多数弱监督方法要么涉及对输入图像的强下采样,要么仅实现粗分辨率的定位,这两者对于小结构来说都不理想。我们提出了一个新框架,通过使用层级相关性传播(LRP)提示“Segment Anything Model (SAM2)”,并通过迭代推理增加召回率,从而提高了传统基于注意力的多实例学习(MIL)方法的空间分辨率。此外,我们证明用紧凑卷积变压器(CCT)替换MIL,该变压器增加了位置编码,并允许交换OCT图像不同区域之间的信息,从而进一步显著提高了分割准确性。

总结: 本文提出了一种结合紧凑卷积变压器和SAM2的新框架,有效提升了光学相干断层扫描中高反射焦点的弱监督分割准确性。

###【arXiv编号】2501.05933v1

###【git】

###【期刊】

###【领域】计算机视觉

[推荐指数:4]

推荐理由

该研究提出了一种创新性框架,结合变压器和SAM2模型,有效提高了医学成像中小结构的分割准确性,具有较高的实用性和应用潜力。


—第47篇----

=====

文章名称

Neural Differential Appearance Equations

🔍 关键词: cs.CV, cs.GR, cs.LG
PDF链接

摘要: 我们提出了一种方法,以生成具有时变视觉统计数据的空间稳定但时间变化的动态外观纹理。虽然大多数先前工作将动态纹理分解为静态外观和运动,我们专注于由于基本属性(如生锈、腐蚀、融化和风化)的变化而产生的动态外观。为此,我们采用神经常微分方程(ODE)从目标样本中学习外观的潜在动态。我们在两个阶段模拟ODE。在“预热”阶段,ODE将随机噪声扩散到初始状态。然后,我们约束此ODE的进一步演化,以复制生成阶段样本中视觉特征统计的演变。该工作的创新在于神经ODE实现了去噪和演化以进行动态合成,并提出了一个时间训练方案。我们研究了可重新照明(BRDF)和不可重新照明(RGB)外观模型。对于两者,我们引入了新的初步数据集,首次允许研究此类现象:对于RGB,我们提供了22个来自免费在线资源的动态纹理;对于BRDF,我们进一步获取了21个时间变化材料的闪光视频数据集,这得益于一个易于构建的设置。我们的实验表明,我们的方法在显著的时间外观变化下始终产生真实且连贯的结果,而先前工作在这种情况下表现不佳。用户研究确认在这些实例下,我们的方法优于先前工作。
总结: 本文提出了一种利用神经常微分方程生成时变动态外观纹理的新方法,优于现有技术。

###【arXiv编号】
2410.07128v2

###【git】
未提供

###【期刊】
未发表或未提供

###【领域】
计算机视觉、图形学、机器学习

[推荐指数:4]

推荐理由

该研究创新性地应用神经常微分方程生成时变动态外观纹理,并通过新数据集和实验验证了方法的优越性,具有较高的应用价值。


—第48篇----

Chimera: 提升通用模型的领域特定专家集成

🔍 关键词: 大型多模态模型、领域特定专家、逐步训练策略、GSCM机制、多模态推理、视觉内容提取
PDF链接

摘要: 近期大型多模态模型(LMMs)的进展强调了通过增加图像-文本配对数据进行扩展的重要性,在通用任务上取得了令人印象深刻的表现。尽管它们在广泛的应用中表现有效,但通用模型主要在由自然图像主导的网络规模数据集上训练,导致在需要广泛领域先验知识的特定领域任务上牺牲了专业化能力。此外,由于表示上的差距和通用模型与专家模型之间的不平衡优化,直接整合为特定领域定制的专家模型具有挑战性。为解决这些挑战,我们引入了Chimera,这是一种可扩展且低成本的多模态管道,旨在通过领域特定专家增强现有的大型多模态模型。具体而言,我们设计了一种逐步训练策略,将专家模型的特征集成到通用大型多模态模型的输入中。为了应对由良好对齐的通用视觉编码器引起的不平衡优化,我们引入了一种新颖的通用-专家协作遮蔽(GSCM)机制。这导致了一个多功能模型,在图表、表格、数学和文档领域表现出色,在多模态推理和视觉内容提取任务上达到了最新的性能,这些任务都是评估现有大型多模态模型的挑战性任务。

总结: Chimera通过结合领域特定专家和通用大模型,实现了在多模态推理和视觉内容提取任务上的先进性能。

###【arXiv编号】2412.05983v2

###【git】无

###【期刊】无

###【领域】计算机视觉

[推荐指数:4]

推荐理由

Chimera提出了一种创新的多模态模型增强方法,通过领域特定专家集成,大幅提升了模型在特定任务上的表现,具有较高的实用性和创新性。

—第49篇----

=====

GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

🔍 关键词: cs.CV, cs.CL
链接1

摘要: 尽管多模态大型语言模型(MLLMs)在通用任务中表现出色,但它们在自动几何问题求解(GPS)方面仍然存在困难,这需要理解图表、解释符号并进行复杂推理。这一限制源于它们在自然图像和文本上的预训练,以及问题解决过程中缺乏自动验证。此外,当前的几何专家由于其任务特定的设计,在处理更广泛的几何问题时效果不佳。为此,我们提出了GeoX,一个专注于几何理解和推理任务的多模态大型模型。鉴于几何图表符号与自然图像文本之间的显著差异,我们引入了单模态预训练,以开发图表编码器和符号解码器,增强对几何图像和语料库的理解。此外,我们引入了几何-语言对齐,这是一种有效的预训练范式,弥合了单模态几何专家之间的模态差距。我们提出了生成器与采样器转换器(GS-Former),以生成区分性查询并消除来自分布不均的几何信号的不具信息量的表示。最后,GeoX 受益于视觉指令调优,使其能够接受几何图像和问题作为输入,并生成可验证的解决方案。实验表明,GeoX 在公认的基准测试(如GeoQA、UniGeo、Geometry3K和PGPS9k)上超越了通用模型和几何专家。
总结: GeoX通过统一的视觉-语言预训练,有效提升了几何问题求解的理解和推理能力,超越了现有的通用和专业模型。

###【arXiv编号】2412.11863v2
###【git】
###【期刊】
###【领域】计算机视觉、计算语言学

[推荐指数:4]

推荐理由

GeoX在几何理解和推理任务中展示了显著的创新性和实用性,通过引入多模态预训练和几何-语言对齐,显著提升了模型在相关基准上的表现,适用于智慧交通和自动驾驶等领域的几何分析需求。


—第50篇----

=====

Backdoor Attacks against No-Reference Image Quality Assessment Models via a Scalable Trigger

🔍 关键词: 无参考图像质量评估, 后门攻击, 离散余弦变换, 逆向攻击, 通用对抗扰动
PDF链接

摘要: 无参考图像质量评估(NR-IQA)负责在无需任何参考的情况下评估单个输入图像的质量,在评估和优化计算机视觉系统(如低光照增强)中起着关键作用。近期研究表明,NR-IQA模型容易受到对抗性攻击,这些攻击可以通过肉眼难以察觉的扰动显著改变预测分数。尽管揭示了这些脆弱性,但现有的攻击方法存在计算需求高、操控目标不明确、在白盒场景下实用性有限以及在黑盒场景下效果减弱等限制。为了解决这些挑战,我们转向另一种重要威胁,提出了一种新颖的基于中毒的后门攻击(BAIQA),允许攻击者通过简单调整触发器的缩放系数α,将IQA模型的输出操控为任意期望的目标值。我们建议在离散余弦变换(DCT)域中注入触发器,以提高触发器的局部不变性,防止由于广泛采用的数据增强而导致的NR-IQA模型中的触发器减弱。此外,我们在DCT空间中设计了通用对抗扰动(UAP)作为触发器,以增加IQA模型对操控的敏感性并提高攻击效果。除了基于标签中毒的启发式方法P-BAIQA外,我们还探索了基于清洁标签的BAIQA(C-BAIQA)的设计,重点关注α采样和图像数据优化,这些设计受到我们揭示的理论见解的驱动。在多样化的数据集和各种NR-IQA模型上的大量实验证明了我们攻击的有效性。代码可在GitHub找到。
总结: 本文提出了一种新颖且高效的基于中毒的后门攻击方法,显著增强了对无参考图像质量评估模型的操控能力,并通过实验证明了其有效性。
###【arXiv编号】2412.07277v2
###【git】https://github.com/yuyi-sd/BAIQA
###【期刊】未提供
###【领域】计算机科学,计算机视觉,信息安全

[推荐指数:4]

推荐理由

该研究在图像质量评估模型的安全性方面进行了创新性的探索,提出了有效的后门攻击方法,并且提供了开源代码,具有较高的学术价值和实用性。

=====

—第51篇----

PGSR:基于平面的高斯点云用于高效和高保真表面重建

🔍 关键词: 高斯点云, 表面重建, 渲染, 计算机视觉
链接1

摘要: 近年来,3D高斯点云(3DGS)因其高质量的渲染以及极快的训练和渲染速度而受到广泛关注。然而,由于高斯点云的无结构和不规则性,单纯依赖图像重建损失难以保证几何重建的精确性和多视角一致性。尽管近期出现了许多基于3DGS的表面重建研究,但它们的网格质量通常不尽如人意。为了解决这一问题,我们提出了一种快速的基于平面的高斯点云重建表示(PGSR),以实现在保证高质量渲染的同时实现高保真的表面重建。具体而言,我们首先引入了一种无偏的深度渲染方法,该方法基于高斯点云的分布,直接渲染从相机原点到高斯平面的距离及相应的法线图,并将两者分离以获得无偏深度。然后,我们引入了单视图几何、多视图光度以及几何正则化来保持全局几何精度。我们还提出了一种相机曝光补偿模型,以应对具有大光照变化的场景。对室内和室外场景的实验表明,我们的方法在保持高保真渲染和几何重建的同时,实现了快速的训练和渲染,优于基于3DGS和NeRF的方法。

总结: 该研究提出了一种基于平面高斯点云的高效高保真表面重建方法,实现了快速训练和渲染,并在多项实验中优于现有方法。

###【arXiv编号】2406.06521v2

###【领域】计算机视觉

[推荐指数:4]

推荐理由

该论文在高斯点云的表面重建领域提出了创新的方法,解决了现有方法中网格质量不佳的问题,同时在实际应用中展现出较高的效率和效果,具有较高的应用价值。

—第52篇----

=====

VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling

🔍 关键词: cs.CV, cs.LG
链接1

摘要: 长上下文建模是多模态大型语言模型(MLLM)的关键能力,使其能够处理具有隐式记忆功能的长形式内容。尽管取得了进展,但处理极长的视频仍然具有挑战性,因为在延长序列中保持关键特征的难度。本文提出了一种分层视觉标记压缩(HiCo)方法,旨在实现高保真度表示,并设计了一个实用的上下文建模系统VideoChat-Flash,专为多模态长序列处理量身定制。HiCo 利用长视频中视觉信息的冗余,从剪辑级到视频级压缩长视频上下文,显著减少计算量,同时保留重要细节。VideoChat-Flash 采用了多阶段的短至长学习方案,拥有一个名为LongVid的真实世界长视频丰富数据集,以及一个升级的 “Needle-In-A-video-Haystack” (NIAH) 评估上下文容量。在广泛的实验中,VideoChat-Flash 在2B和7B模型规模下的主流长短视频基准上表现领先,首次在开源模型中在NIAH上达到99.1%的准确率,处理了10,000帧。
总结: 提出了一种用于多模态长序列处理的高效分层视觉压缩方法,显著提升了视频上下文建模的性能。

【arXiv编号】2501.00574v2

【git】

【期刊】

【领域】计算机视觉、机器学习

[推荐指数:4]

推荐理由

该研究通过分层压缩技术有效解决了长视频建模中的计算和存储挑战,在多模态长序列处理方面展现出高效的性能,具有较高的创新性和实用价值,但可能在特定应用场景下需要进一步验证。


—第53篇----

=====

Binary Event-Driven Spiking Transformer

🔍 关键词: Transformer, 脉冲神经网络, 二值化, 自注意力, 能效
链接1

摘要: 基于Transformer的脉冲神经网络(SNNs)引入了一种新的事件驱动自注意力范式,结合了Transformer的高性能和SNN的能效。然而,Transformer结构较大的模型规模和增加的计算需求限制了其在资源受限场景中的实用性。本文将二值化技术整合到基于Transformer的SNN中,提出了Binary Event-Driven Spiking Transformer,即BESTformer。所提出的BESTformer通过仅用1位表示权重和注意力图,显著降低了存储和计算需求。然而,由于二值化有限的表示能力,BESTformer相较其全精度对手在性能上出现了严重下降。为了解决这个问题,本文提出了一种耦合信息增强(CIE)方法,包含可逆框架和信息增强蒸馏。通过最大化二值模型与其全精度对手之间的互信息,CIE方法有效地缓解了BESTformer的性能下降。在静态和神经形态数据集上的大量实验表明,我们的方法在其他二值SNN中表现出更优的性能,展示了其作为资源受限边缘设备紧凑而高性能模型的潜力。 总结: 本文提出了一种二值化的Transformer-based脉冲神经网络,通过耦合信息增强方法有效提升了模型性能,适用于资源有限的边缘设备。
###【arXiv编号】2501.05904v1
###【git】无
###【期刊】未发表
###【领域】计算机视觉

[推荐指数:4]

推荐理由

BESTformer通过创新的二值化技术和耦合信息增强方法,有效平衡了模型性能和资源消耗,特别适合在资源受限的边缘设备上应用,具有较高的实用价值和创新性。


—第54篇----

=====

Valley2: 探索具有可扩展视觉语言设计的多模态模型

🔍 关键词: 多模态模型, 视觉语言, 电子商务, 短视频
PDF链接

摘要: 近年来,视觉语言模型取得了显著进展,在图像字幕生成和视频理解等多种任务中展示了优秀的能力。我们介绍了Valley2,这是一种新型的多模态大型语言模型,旨在提升所有领域的性能,并扩展电子商务和短视频场景中的实际应用边界。值得注意的是,Valley2在电子商务基准测试上实现了最先进(SOTA)的性能,远超同规模的开源模型(79.66 vs. 72.76)。此外,Valley2在参数少于10B的模型中,在OpenCompass排行榜上排名第二,平均得分达67.4。代码和模型权重已在GitHub上开源。

总结: Valley2是一种创新性的多模态大型语言模型,显著提升了电子商务和短视频领域的应用性能。

###【arXiv:2501.05901v1】

###【git: https://github.com/bytedance/Valley

###【期刊】未发布

###【领域】计算机视觉、多模态模型、电子商务、短视频

[推荐指数:5]

推荐理由

Valley2在多模态模型领域表现卓越,特别是在电子商务应用上超越现有开源模型,并在OpenCompass排行榜中名列前茅,具有高度的创新性和实用性。

=====

—第55篇----

=====

OmniCount: Multi-label Object Counting with Semantic-Geometric Priors

🔍 关键词: cs.CV, eess.IV, eess.SP
链接1

摘要: 对象计数对于理解场景的组成至关重要。此前,这项任务主要由特定类方法主导,逐渐发展为更具适应性的类无关策略。然而,这些策略存在自身的局限性,如需要手动示例输入和多类别的多次运行,导致显著的效率低下。本文介绍了一种更实用的方法,利用开放词汇框架实现多类别对象的同时计数。我们的解决方案,OmniCount,独特之处在于利用预训练模型的语义和几何见解(先验知识)来计数用户指定的多个对象类别,且无需额外训练。OmniCount 通过生成精确的对象掩码,并利用“任何事物分割模型”的多样交互提示,实现高效计数。为了评估 OmniCount,我们创建了 OmniCount-191 基准,一个首创的包含多标签对象计数(包括点、边界框和 VQA 注释)的数据集。我们在 OmniCount-191 以及其他领先基准上的全面评估表明,OmniCount 的性能卓越,显著超越现有解决方案。项目网页可在 https://mondalanindya.github.io/OmniCount 获取。
总结: OmniCount 提出了一种无需额外训练即可高效计数多类别对象的方法,显著提升了对象计数的性能。

###【arXiv编号】: 2403.05435v6
###【git】: 无
###【期刊】: 无
###【领域】: 计算机视觉,电子工程,信号处理

[推荐指数:4]

推荐理由: OmniCount 提供了一种创新且实用的多类别对象计数方法,显著提高了计数效率和准确性,适用于多种应用场景。

=====

—第56篇----

=====

Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation

🔍 关键词: 视觉文本生成, 扩散模型, 语义校正, 结构注入
PDF链接

摘要: 在现实世界的图像中,由于艺术设计或布局限制,倾斜或曲线文本(尤其是在罐子、横幅或徽章上的文本)出现的频率与平坦文本一样高,甚至更多。尽管先进的扩散模型具备生成高质量视觉文本的能力,但由于训练数据的限制,这些模型在处理倾斜或曲线文本布局时,往往会产生扭曲的文本和不和谐的文本背景。本文介绍了一种新的无训练框架STGen,能够在挑战性场景(如倾斜或曲线文本布局)中准确生成视觉文本,同时使其与文本背景和谐。我们的框架将视觉文本生成过程分解为两个分支:(i)语义校正分支,利用模型在生成平坦但准确的视觉文本方面的能力,引导生成具有挑战性场景的文本。生成的平坦文本潜在包含丰富的与文本本身及其背景相关的语义信息,通过整合这些信息,我们校正文本的语义信息,并在复杂布局中使文本与背景的整合更为和谐。(ii)结构注入分支,在推理过程中强化视觉文本结构。我们将富含字形结构的字形图像潜在信息作为新的条件,进一步增强文本结构。为了增强图像的和谐性,我们还应用了一种有效的组合方法来合并先验,为生成提供坚实的基础。在各种视觉文本布局上的广泛实验表明,我们的框架在准确性和质量方面均表现出色。
总结: 提出了一个无需训练的新框架STGen,提升了复杂布局下的视觉文本生成质量和与背景的和谐度。

###【arXiv编号】2501.05892v1
###【git】
###【期刊】
###【领域】计算机视觉

[推荐指数:4]

推荐理由

该研究在视觉文本生成领域提出了创新性的框架,能够有效处理复杂布局下的文本生成问题,具有较高的实用性和创新性,尽管尚未提供代码实现和期刊发表信息。


—第57篇----

=====

EDNet: Edge-Optimized 小目标检测于无人机影像 —— 更快的上下文注意力、更好的特征融合与硬件加速

🔍 关键词: 小目标检测, 无人机影像, 实时应用, YOLOv10, 特征融合, 硬件加速
PDF链接

摘 要: 在无人机影像中检测小目标具有挑战性,原因包括低分辨率、复杂背景以及动态场景。我们提出了EDNet,这是一种基于增强型YOLOv10架构的新型边缘目标检测框架,优化用于无需后处理的实时应用。EDNet结合了XSmall检测头和Cross Concat策略,以改进特征融合和多尺度上下文感知,从而在多样化环境中检测微小目标。我们独特的C2f-FCA模块采用更快的上下文注意力来增强特征提取,同时降低计算复杂度。WIoU损失函数用于改进边界框回归。EDNet提供七种模型大小,从Tiny到XL,以适应各种部署环境,实现本地实时推理并确保数据隐私。值得注意的是,EDNet在mAP@50上提高了高达5.6%,且参数显著减少。在iPhone 12上,EDNet的不同变体运行速度在16到55 FPS之间,为在具有挑战性的无人机影像中进行边缘物体检测提供了可扩展且高效的解决方案。源代码和预训练模型可在GitHub获取。
总结: EDNet通过优化YOLOv10架构,实现了在无人机影像中高效且实时的小目标检测,显著提升了检测精度与运行速度。
###【arXiv编号】
2501.05885v1
###【git】
https://github.com/zsniko/EDNet
###【期刊】
arXiv预印本
###【领域】
计算机视觉, 人工智能, 机器学习

[推荐指数:4]

推荐理由

EDNet在小目标检测领域展示了显著的创新性和实用性,通过优化的架构和高效的特征融合方法,不仅提升了检测精度,还实现了在边缘设备上的实时运行,具有广泛的应用前景。

=====

—第58篇----

=====

Gender Bias in Text-to-Video Generation Models: A case study of Sora

🔍 关键词: cs.CV, cs.AI, cs.CY, cs.LG
PDF链接

摘要: 文本到视频生成模型的出现革命性地改变了内容创作,因为它能够根据文本提示生成高质量的视频。然而,这类模型中固有的偏见问题引起了关注,特别是在性别代表性方面。我们的研究调查了OpenAI的Sora这一先进的文本到视频生成模型中性别偏见的存在。通过分析来自多样化的性别中立和刻板提示生成的视频,我们发现了显著的偏见证据。结果表明,Sora不成比例地将特定性别与刻板行为和职业联系在一起,这反映了其训练数据中嵌入的社会偏见。

总结: 本研究揭示了Sora文本到视频生成模型中存在显著的性别偏见,反映了训练数据中的社会偏见。

###【arXiv:2501.01987v2】

###【期刊】

###【领域】
计算机视觉, 人工智能, 计算机系统, 机器学习

[推荐指数:4]

推荐理由

该研究深入分析了先进文本到视频生成模型中的性别偏见问题,具有重要的社会意义和应用价值,有助于推动公平和包容性的AI发展。

=====

—第59篇----

=====

Text-to-Edit: Controllable End-to-End Video Ad Creation via Multimodal LLMs

🔍 关键词: 视频编辑、多模态大型语言模型、自动化解决方案、广告制作
PDF Link

摘要: 短视频内容的指数增长引发了对高效、自动化视频编辑解决方案的迫切需求,面临理解视频内容并根据用户需求定制编辑的挑战。针对这一需求,我们提出了一种创新的端到端基础框架,实现了对最终视频内容编辑的精确控制。利用多模态大型语言模型(MLLMs)的灵活性和通用性,我们定义了高效视频创建的清晰输入输出映射。为了增强模型在处理和理解视频内容方面的能力,我们引入了密集帧率与慢速-快速处理技术的战略组合,显著提升了对视频的时空信息的提取和理解。此外,我们引入了文本编辑机制,允许用户通过文本输入实现期望的视频编辑结果,从而提升了编辑视频的质量和可控性。通过全面的实验,我们的方法不仅在广告数据集上展示了显著的效果,还在公共数据集上得出了普遍适用的结论。
总结: 本文提出了一种基于多模态大型语言模型的端到端视频广告创建框架,能够通过文本输入实现精确且可控的视频编辑。

【arXiv编号】2501.05884v1

【git】无

【期刊】无

【领域】计算机视觉、视频编辑、广告制作

[推荐指数:4]

推荐理由

该研究利用多模态大型语言模型,创新性地实现了自动化且可控的视频编辑,特别适用于短视频和广告制作,具有较高的实用性和应用前景。


—第60篇----

=====

TakuNet: an Energy-Efficient CNN for Real-Time Inference on Embedded UAV systems in Emergency Response Scenarios

🔍 关键词: 能效,卷积神经网络,实时推理,嵌入式无人机系统,紧急响应
链接1

摘要: 设计适用于嵌入式设备的高效神经网络是一个关键挑战,尤其是在需要实时性能的应用中,如用于紧急响应的无人机和UAV的航拍成像。在本研究中,我们介绍了TakuNet,这是一种新型轻量级架构,采用深度可分离卷积和早期下采样策略来减少计算复杂度,同时保持高精度。它利用密集连接加速训练过程中的收敛,并使用16位浮点精度在嵌入式硬件加速器上进行优化。对两个公共数据集的实验评估表明,TakuNet在紧急情况航拍图像分类方面达到了接近最先进的准确率,尽管其参数数量极少。在嵌入式设备(如Jetson Orin Nano和Raspberry Pi)上的实际测试证实了TakuNet的高效性,在15W的Jetson板上实现了超过650帧每秒的处理速度,使其适用于资源受限平台上的实时人工智能处理,推动了无人机在紧急场景中的应用。代码和实现细节已公开发布。
总结: TakuNet通过优化网络结构和计算精度,实现了在嵌入式无人机系统中高效的实时图像分类,适用于紧急响应场景。

###【arXiv编号】2501.05880v1
###【git】暂无
###【期刊】未发表
###【领域】计算机视觉,嵌入式系统

[推荐指数:5]

推荐理由

TakuNet在保持高准确率的同时显著降低了计算复杂度,适用于资源受限的嵌入式无人机系统,并已在实际设备上验证其高效性,具有高度的创新性和实用价值。

=====

—第61篇----

=====

VideoRAG: Retrieval-Augmented Generation over Video Corpus

🔍 关键词: 检索增强生成, 视频语料库, 大型视频语言模型, 多模态知识
链接1

摘要: 检索增强生成(RAG)是一种强大的策略,用于解决基础模型生成事实错误输出的问题,通过检索与查询相关的外部知识并将其整合到生成过程中。然而,现有的RAG方法主要集中在文本信息上,最近的一些进展开始考虑图像,但它们在很大程度上忽视了视频,视频是一种丰富的多模态知识来源,能够比任何其他模态更有效地表示事件、过程和上下文细节。虽然最近有一些研究探索了在响应生成过程中整合视频,它们要么预定义与查询相关联的视频,而不是根据查询动态检索视频,要么将视频转换为文本描述,而没有利用视频的多模态丰富性。为了解决这些问题,我们引入了VideoRAG,一个新颖的框架,不仅根据与查询的相关性动态检索相关视频,还在输出生成中利用视频的视觉和文本信息。此外,为了实现这一点,我们的方法围绕大型视频语言模型(LVLMs)的最新进展,这些模型能够直接处理视频内容以用于检索和将检索到的视频与查询无缝整合。我们通过实验证明了VideoRAG的有效性,展示了其优于相关基线的方法。
总结: VideoRAG提出了一种动态检索视频并结合视觉和文本信息进行生成的新框架,显著优于现有方法。

###【arXiv:2501.05874v1】
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 计算语言学, 信息检索, 机器学习

[推荐指数:4]

推荐理由

VideoRAG在检索增强生成方法中首次有效整合视频作为多模态知识源,展示出较高的创新性和实用性,具有广泛的应用潜力。


—第62篇----

=====

Language-Inspired Relation Transfer for Few-shot Class-Incremental Learning

🔍 关键词: 语言启发关系转移, 少样本学习, 类增量学习, 图关系转换, 文本视觉融合
PDF链接

摘要: 通过观察少量样本,用语言描述新类别是人类学习系统的内在特点。这种终身学习能力通过开放世界学习的增加来区分新知识与旧知识,即少样本类增量学习(FSCIL)。现有的解决这一问题的方法主要依赖于对视觉编码器的精细调优,这在基础知识和增量知识之间表现出明显的权衡。受人类学习系统的启发,我们提出了一种新的语言启发关系转移(LRT)范式,通过联合视觉线索和文本描述来理解对象,该范式由两个主要步骤组成。首先,我们通过提出图关系转换模块将预训练的文本知识转移到视觉领域,然后通过文本视觉原型融合模块融合视觉和语言嵌入。其次,为了减轻视觉微调引起的领域差距,我们提出上下文提示学习以实现快速领域对齐,并通过想象对比学习缓解对齐过程中文本数据不足的问题。通过领域对齐和文本图像转移的协同学习,我们提出的LRT在mini-ImageNet和CIFAR-100 FSCIL基准的最终环节中分别超过了最新模型13%和7%。
总结: 结合语言描述与视觉信息的关系转移方法显著提升了少样本类增量学习的性能。

###【arXiv编号】: 2501.05862v1
###【git】: 无
###【期刊】: 无
###【领域】: 计算机视觉

[推荐指数:4]

推荐理由: 创新性地融合语言和视觉信息,有效缓解类增量学习中的知识权衡问题,提升了模型的整体性能,具有较高的应用价值。

=====

—第63篇----

=====

MRI Patterns of the Hippocampus and Amygdala for Predicting Stages of Alzheimer’s Progression: A Minimal Feature Machine Learning Framework

🔍 关键词: 阿尔茨海默病, MRI, 海马体, 杏仁核, 机器学习, 特征选择, PCA, t-SNE
链接1

摘要: 阿尔茨海默病(AD)经历从早期轻度认知障碍(EMCI)到晚期轻度认知障碍(LMCI),最终发展为AD的不同阶段。准确识别这些阶段,尤其是区分LMCI和EMCI,对于开发痴呆前治疗至关重要,但由于影像特征细微且存在重叠,仍然具有挑战性。本研究提出了一种最小特征机器学习框架,利用结构性MRI数据,重点关注海马体和杏仁核作为感兴趣区域。该框架通过特征选择解决了维度诅咒,利用区域特定的体素信息,并实施创新的数据组织以通过减少噪声提高分类性能。该方法集成了PCA和t-SNE等降维技术与最先进的分类器,达到了最高88.46%的准确率。该框架展示了高效且准确分期AD进展的潜力,同时为临床应用提供了有价值的见解。
总结: 本文提出了一种基于结构性MRI数据的机器学习框架,有效预测阿尔茨海默病的不同进展阶段。

###【arXiv编号】arXiv:2501.05852v1
###【git】
###【期刊】
###【领域】计算机视觉,机器学习

[推荐指数:4]

推荐理由

该研究在利用最小特征的机器学习框架预测阿尔茨海默病进展阶段方面具有较高的创新性和实用性,准确率达88.46%,对临床诊断和治疗具有重要参考价值。然而,论文尚未提供Git资源和期刊发表信息,限制了其进一步的验证和应用。

=====

—第64篇----

=====

MC-VTON: Minimal Control Virtual Try-On Diffusion Transformer

🔍 关键词: 计算机视觉, 虚拟试衣, 扩散模型, Transformer
链接1

摘要: 基于扩散模型的虚拟试衣方法能够实现逼真的试衣效果。它们使用额外的参考网络或附加的图像编码器来处理多个条件图像输入,这增加了预处理的复杂性和额外的计算成本。此外,它们需要超过25步的推理步骤,导致更长的推理时间。在本研究中,随着扩散Transformer(DiT)的发展,我们重新思考了是否需要额外的参考网络或图像编码器,并推出了MC-VTON,它利用DiT的内在骨干网络无缝集成了最小化的条件试衣输入。与现有方法相比,MC-VTON在四个方面展示了其优越性:(1)卓越的细节保真度。我们基于DiT的MC-VTON在保持细粒度细节方面表现出色;(2)简化的网络和输入。我们移除了任何额外的参考网络或图像编码器。我们还移除了不必要的条件,如长提示、姿态估计、人类解析和深度图。我们仅需要掩膜人物图像和服装图像;(3)参数高效的训练。为处理试衣任务,我们仅对FLUX.1-dev进行了微调,增加了仅39.7M参数(占骨干网络参数的0.33%);(4)更少的推理步骤。我们对MC-VTON应用了蒸馏扩散,仅需8步即可生成逼真的试衣图像,增加了仅86.8M参数(占骨干网络参数的0.72%)。实验表明,MC-VTON在条件输入数量、可训练参数和推理步骤上比基线方法更少,同时在定性和定量结果上表现更优越。
总结: MC-VTON通过利用扩散Transformer简化了虚拟试衣的网络结构和输入条件,同时提升了细节保真度和推理效率。

###【arXiv编号】2501.03630v2
###【git】
###【期刊】
###【领域】计算机视觉

[推荐指数:4]

推荐理由

因其在虚拟试衣领域通过简化网络结构和减少推理步骤,实现了更高的细节保真度和效率,展示了创新性和实用性。


—第65篇----

=====

Identity-aware Feature Decoupling Learning for Clothing-change Person Re-identification

🔍 关键词: 服装变化, 人员再识别, 身份感知, 特征解耦, 注意力机制
链接1

摘要: 由于其应用前景,服装变化人员再识别(CC Re-ID)近年来备受关注。大多数现有研究在从原始RGB图像中充分提取与身份相关的信息方面存在困难。本文提出了一种身份感知特征解耦(IFD)学习框架来挖掘身份相关特征。具体而言,IFD利用由主流和注意力流组成的双流架构。注意力流以去除服装的图像作为输入,生成身份注意权重,有效地将空间知识传递到主流,并突出显示包含丰富身份相关信息的区域。为了消除两条流输入之间的语义差距,我们为主流提出了一个特定的服装偏差减弱模块,以规范与服装相关区域的特征。大量实验结果表明,我们的框架在多个广泛使用的CC Re-ID数据集上优于其他基线模型。
总结: 本文提出的身份感知特征解耦学习框架通过双流架构和服装偏差减弱模块,显著提升了服装变化情况下的人员再识别性能。

###【arXiv编号】2501.05851v1
###【git】
###【期刊】
###【领域】计算机视觉

[推荐指数:4]

推荐理由

该研究针对服装变化下的人员再识别问题,提出了创新的双流架构和特征解耦方法,实验证明其性能优于现有模型,具有较高的学术价值和实用性。


—第66篇----

=====

VLM-driven Behavior Tree for Context-aware Task Planning

🔍 关键词: 机器人学, 人工智能, 计算机视觉, 人机交互
链接1

摘要: 最近,使用大型语言模型(LLMs)生成行为树(BTs)在机器人社区中引起了关注,但仍处于早期发展阶段。本文提出了一个新颖的框架,利用视觉语言模型(VLMs)交互式生成和编辑行为树,解决视觉条件,从而使机器人能够在视觉复杂的环境中进行情境感知操作。我们方法的一个关键特性在于通过自提示的视觉条件进行条件控制。具体而言,VLM生成带有视觉条件节点的行为树,其中条件以自由文本表达。另一个VLM过程将文本集成到其提示中,并在机器人执行过程中根据真实世界的图像评估这些条件。我们在真实世界的咖啡馆场景中验证了我们的框架,展示了其可行性和局限性。

总结: 本文提出了利用视觉语言模型生成和编辑行为树的创新框架,实现在复杂视觉环境中的情境感知机器人操作。

###【arXiv编号】
2501.03968v2

###【git】

###【期刊】

###【领域】
机器人学, 人工智能

[推荐指数:4]

推荐理由

该研究将视觉语言模型与行为树相结合,具有较高的创新性和实用性,并在实际场景中进行了验证,但仍处于初步阶段。

=====

—第67篇----

=====

Long Story Short: Story-level Video Understanding from 20K Short Films

🔍 关键词: 计算机视觉, 人工智能, 计算机语言学
链接1

摘要: 最近在视觉语言模型方面的发展显著推动了视频理解的进步。然而,现有的数据集和任务存在显著的局限性。大多数数据集仅限于具有有限事件和狭窄叙事的短视频。例如,具有指导性和视角性视频的数据集通常描绘一个人在单一场景中的活动。尽管现有的电影数据集提供了更丰富的内容,但它们通常仅限于短期任务,缺乏公开可用的视频,并且由于在大型语言模型预训练期间使用字幕和其他商业电影的信息,常常遇到数据泄漏问题。为了解决上述限制,我们提出了Short-Films 20K(SF20K),这是目前最大的公开可用电影数据集。SF20K由20,143部业余电影组成,并以多项选择和开放式问答的形式提供长期视频任务。我们对SF20K的广泛分析表明数据泄漏最小,强调了长期推理的必要性,并展示了最新视觉语言模型的强大性能。最后,我们展示了在SF20K-Train集上进行指令调优大大提高了模型性能,为长期视频理解的未来进展铺平了道路。
总结: 本文提出了SF20K数据集,通过包含2万多部业余电影,促进了长期视频理解和视觉语言模型的研究。
###【arXiv编号】2406.10221v2
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 计算机语言学

[推荐指数:4]

推荐理由

SF20K作为最大规模的公开电影数据集,解决了现有数据集的多项局限,促进了长期视频理解和视觉语言模型的发展,具有较高的创新性和实用性。


—第68篇----

=====

Poetry in Pixels: Prompt Tuning for Poem Image Generation via Diffusion Models

🔍 关键词: 文本-图像生成、扩散模型、提示调优、诗歌图像生成
链接1

摘要: 文本到图像的生成任务在应用于文学作品,特别是诗歌时遇到了重大挑战。诗歌是一种特殊的文学形式,其含义常常超越了字面的词语。为了解决这一不足,我们提出了一个PoemToPixel框架,旨在生成能够视觉呈现诗歌内在意义的图像。我们的方法在图像生成框架中引入了提示调优的概念,以确保生成的图像与诗歌内容紧密契合。此外,我们提出了PoeKey算法,从诗歌中提取情感、视觉元素和主题三个关键元素,形成指令,随后提供给扩散模型以生成相应的图像。为了扩展不同流派和年龄段的诗歌数据集的多样性,我们引入了MiniPo,一个包含1001首儿童诗和图像的新型多模态数据集。结合该数据集和PoemSum,我们对使用PoemToPixel框架的图像生成进行了定量和定性的评估。本文展示了我们方法的有效性,并为从文学源生成图像提供了新的视角。
总结: 本文提出了一种通过扩散模型和提示调优技术将诗歌转化为图像的框架,并展示了其在多模态诗歌数据集上的有效性。
###【arXiv:2501.05839v1】
###【git】
###【期刊】
###【领域】计算机视觉

[推荐指数:4]

推荐理由

该研究在文本到图像生成领域结合文学艺术,提出了创新的PoemToPixel框架和PoeKey算法,并通过新数据集MiniPo增强了方法的多样性和实用性,具有较高的创新性和应用潜力,因此推荐指数为4。


—第69篇----

=====

Fractional Concepts in Neural Networks: Enhancing Activation Functions

🔍 关键词: 神经网络, 分数阶微积分, 激活函数, 机器学习, 计算机视觉
链接1

摘要: 设计有效的神经网络需要调整架构元素。本研究通过将分数阶微积分整合到神经网络中,引入分数阶导数(FDO)作为激活函数的可调参数,通过调整FDO允许多样化的激活函数。我们在各种数据集和网络架构上评估这些分数阶激活函数,将其性能与传统和新型激活函数进行比较。我们的实验评估了它们对准确性、时间复杂性、计算开销和内存使用的影响。结果表明,分数阶激活函数,特别是分数阶Sigmoid,在某些情况下具有优势。仍然存在与一致性和效率相关的挑战。讨论了实用意义和局限性。

总结: 本文通过引入分数阶导数改进激活函数,展示了在特定场景下增强神经网络性能的潜力。

###【arXiv编号】2310.11875v2

###【git】

###【期刊】

###【领域】计算机科学

[推荐指数:4]

推荐理由

该研究在神经网络激活函数中引入分数阶微积分,具有较高的创新性,并在某些应用场景下展示了实用性,尽管面临一致性和效率的挑战,但整体具有较大的研究和应用潜力。

=====

—第70篇----

=====

MoColl: 基于代理的特定与通用模型协作用于图像描述

🔍 关键词: cs.CV, cs.AI
链接1

摘要: 图像描述是计算机视觉和自然语言处理交叉的关键任务,在各个领域有广泛的应用。对于复杂任务,如诊断报告生成,深度学习模型不仅需要领域特定的图像描述数据集,还需要结合相关的通用知识以提供上下文的准确性。现有方法存在固有的局限性:专业模型在捕捉领域特定细节方面表现出色,但缺乏泛化能力,而基于大型语言模型(LLM)的视觉语言模型(VLM)则利用通用知识,但在领域特定的适应性方面存在困难。为了解决这些限制,本文提出了一种新颖的增强代理模型协作框架,称为MoColl,旨在有效整合领域特定和通用知识。具体而言,我们的方法是将复杂的图像描述任务分解为一系列相互关联的问答子任务。训练有素的视觉问答(VQA)模型被用作专门工具,专注于基于图像内容的领域特定视觉分析,回答任务特定的问题。同时,基于LLM的代理具有通用知识,负责制定这些问题并将生成的问答对综合成连贯的描述。除了利用VQA模型的角色外,代理还指导其训练以增强其领域特定能力。在放射学报告生成的实验结果验证了所提出框架的有效性,显著提高了生成报告的质量。

总结: 本文提出了一种名为MoColl的增强代理模型协作框架,通过分解图像描述任务,将领域特定的视觉问答模型与通用的大型语言模型有效结合,从而显著提升复杂任务如放射学报告生成的质量。

###【arXiv编号】2501.01834v2
###【git】暂无
###【期刊】预印本
###【领域】计算机视觉,人工智能

[推荐指数:4]

推荐理由

MoColl框架创新性地结合了领域特定的视觉问答模型与通用的大型语言模型,解决了现有方法在泛化能力和领域适应性上的不足,并在放射学报告生成中展示了显著的性能提升,具有较高的研究价值和应用潜力。


—第71篇----

=====

Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine

🔍 关键词: cs.CV, cs.AI
arXiv PDF

摘要: 近年来,多模态大型语言模型(MLLM)取得了显著进展,展示了开发智能生物医学助手的可行性。然而,目前的生物医学MLLM主要关注图像级别的理解,并将交互限制在文本指令上,从而限制了它们的能力边界和使用的灵活性。本文介绍了一种新型的端到端多模态大型语言模型,称为MedPLIB,具有像素级的理解能力。令人兴奋的是,它支持视觉问答(VQA)、任意像素级的提示(点、边界框和自由形式形状)以及像素级的定位。我们提出了一种新颖的专家混合(Mixture-of-Experts, MoE)多阶段训练策略,将MoE分为视觉-语言专家模型和像素定位专家模型的独立训练阶段,然后使用MoE进行微调。这一策略有效协调了多任务学习,同时保持了在推理时相当于单一专家模型的计算成本。为了推进生物医学MLLM的研究,我们引入了医学复杂视觉问答数据集(Medical Complex Vision Question Answering Dataset, MeCoVQA),该数据集包含8种模态,用于复杂医学影像的问答以及图像区域理解。实验结果表明,MedPLIB在多个医学视觉语言任务上达到了最先进的成果。更重要的是,在像素定位任务的零样本评估中,MedPLIB在mDice指标上分别以19.7和15.6的优势领先于最好的小型和大型模型。代码、数据和模型检查点将公开在https://github.com/ShawnHuang497/MedPLIB。
总结: MedPLIB是一种创新的生物医学多模态大型语言模型,具备像素级理解能力,并在多个医学视觉语言任务上取得了最先进的成果。
###【arXiv编号】2412.09278v2
###【git】https://github.com/ShawnHuang497/MedPLIB
###【期刊】
###【领域】生物医学多模态人工智能

[推荐指数:5]

推荐理由

MedPLIB提出了创新的像素级理解能力和多任务训练策略,在生物医学领域具有高度的创新性和实用性,显著提升了多模态大型语言模型的应用潜力。


—第72篇----

=====

UltraRay: Full-Path Ray Tracing for Enhancing Realism in Ultrasound Simulation

🔍 关键词: 计算机视觉, 图形学
链接1

摘要: 传统的超声模拟器通过求解波动方程来模拟压力分布场,实现了高精度,但需要大量的计算时间和资源。为了解决这个问题,引入了光线追踪方法,将波的传播建模为与边界和散射体相互作用的光线。然而,现有模型简化了光线传播,在相互作用点生成回波,而没有考虑回波返回传感器的路径。这可能导致不现实的伪影,需要仔细调整场景以获得可信的结果。我们提出了一种新颖的超声模拟流程,利用光线追踪算法生成回波数据,从传感器通过场景直到传感器追踪每条光线。为了复制先进的超声成像,我们引入了一种优化为平面波成像的光线发射方案,结合了延迟和转向能力。此外,我们整合了标准的信号处理流程,以模拟端到端的超声图像形成。我们通过模拟包含高反射物体(如骨骼)的合成场景,展示了所提出流程的有效性。通过这样做,我们提出的方法UltraRay不仅提升了整体视觉质量,还通过准确捕捉次级反射和减少不自然的伪影,改善了模拟图像的真实性。基于可微分框架,所提出的流程为快速且可微分的超声模拟工具奠定了基础,这对于基于梯度的优化、先进的超声波束形成策略、神经网络集成和准确的逆场景重建是必需的。
总结: UltraRay通过全路径光线追踪算法显著提升了超声模拟的真实感和图像质量,为先进的超声成像技术提供了基础工具。
###【arXiv编号】2501.05828v1
###【git】
###【期刊】
###【领域】计算机视觉, 图形学

[推荐指数:4]

推荐理由

UltraRay引入了全路径光线追踪方法,显著提高了超声模拟的真实性和图像质量,具备较高的创新性和实用性,适合进一步研究和应用。


—第73篇----

=====

AI驱动的糖尿病视网膜病变筛查:AIDRSS在印度的多中心验证

🔍 关键词: 电子工程与系统科学, 计算机科学, 人工智能, 计算机视觉
链接1

摘要: 目的:糖尿病视网膜病变(DR)是导致视力丧失的主要原因,尤其在印度,农村地区的视网膜专家资源有限。本研究旨在评估基于人工智能的糖尿病视网膜病变筛查系统(AIDRSS)在DR检测和流行率评估方面的效果,满足资源有限环境中对可扩展自动筛查解决方案日益增长的需求。
方法:在印度加尔各答进行了一项多中心、横断面研究,涉及5029名参与者和10058张以黄斑为中心的视网膜基底照片。AIDRSS采用了具有5000万可训练参数的深度学习算法,并结合了限定对比度的自适应直方图均衡化(CLAHE)预处理以提升图像质量。DR的分级使用国际临床糖尿病视网膜病变(ICDR)量表,将疾病分为五个阶段(DR0至DR4)。统计指标包括敏感性、特异性和流行率,评估与专家视网膜专科医师评估的对比。
结果:普通人群中DR的流行率为13.7%,在血糖水平升高的个体中上升至38.2%。AIDRSS的整体敏感性达到92%,特异性为88%,对可转诊性DR(DR3和DR4)的敏感性为100%。这些结果显示该系统在准确识别和分级不同人群中DR方面具有强大的性能。
结论:AIDRSS为在资源受限环境中早期检测DR提供了可靠且可扩展的解决方案。其先进的AI技术集成确保了高诊断准确性,具有显著减少糖尿病相关视力丧失负担的潜力,特别是在欠缺服务的地区。
总结: AIDRSS通过先进的人工智能技术在印度实现了糖尿病视网膜病变的高效、准确筛查,具有显著的应用潜力。

###【arXiv编号】2501.05826v1
###【git】
###【期刊】
###【领域】智慧医疗

[推荐指数:4]

推荐理由

该研究展示了AIDRSS系统在资源有限地区进行糖尿病视网膜病变筛查的高精度和可扩展性,具有较强的创新性和实用性,对减少糖尿病相关视力损失具有重要意义。


—第74篇----

=====

PersonaHOI: Effortlessly Improving Personalized Face with Human-Object Interaction Generation

🔍 关键词: 个性化人脸生成, 稳定扩散模型, 人体-物体交互
arXiv PDF

摘要: 我们介绍了PersonaHOI,一个无需训练和调整的框架,将通用的StableDiffusion模型与个性化人脸扩散(PFD)模型融合,以生成身份一致的人体-物体交互(HOI)图像。虽然现有的PFD模型已经有了显著进展,但它们往往过度强调面部特征,牺牲了全身的一致性,PersonaHOI引入了一个由HOI导向文本输入指导的额外StableDiffusion(SD)分支。通过在PFD分支中引入交叉注意力约束,并在潜在和残差层面进行空间合并,PersonaHOI在保持个性化面部细节的同时,确保了交互的非面部区域。一项由新颖的交互对齐指标验证的实验表明,PersonaHOI在现实感和可扩展性方面具有卓越的表现,确立了个性化面部与HOI生成的实用新标准。我们的代码将提供在https://github.com/JoyHuYY1412/PersonaHOI。
总结: PersonaHOI通过融合稳定扩散模型和个性化人脸扩散模型,创新性地生成了身份一致且具备人体-物体交互的人像图像。
###【arXiv编号】arXiv:2501.05823v1
###【git】https://github.com/JoyHuYY1412/PersonaHOI
###【期刊】
###【领域】计算机视觉

[推荐指数:5]

推荐理由

PersonaHOI在个性化人脸生成与人体-物体交互方面展现出高度的创新性和实用性,提供了无需训练即可实现高质量图像生成的有效解决方案,具有显著的应用潜力。


—第75篇----

=====

HazeCLIP: Towards Language Guided Real-World Image Dehazing

🔍 关键词: HazeCLIP, 图像去雾, CLIP, 领域适应, 计算机视觉
链接1

摘要: 现有方法在图像去雾方面已经取得了显著的成果,特别是在合成数据集上。然而,由于领域差异,它们在处理真实世界的有雾图像时往往表现不佳,限制了其实用性。本文介绍了HazeCLIP,这是一种语言引导的适应框架,旨在提升预训练去雾网络在真实世界中的性能。受到对比语言-图像预训练(CLIP)模型区分有雾和清晰图像能力的启发,我们利用CLIP模型来评估去雾结果。结合区域特定的去雾技术和定制的提示集,CLIP模型准确识别有雾区域,提供高质量、类似人类的先验知识,引导预训练网络的微调过程。大量实验证明,HazeCLIP在真实世界图像去雾方面达到了最先进的性能,通过视觉质量和图像质量评估指标进行评估。代码可在https://github.com/Troivyn/HazeCLIP获取。
总结: HazeCLIP通过结合CLIP模型和区域特定去雾技术,显著提升了预训练去雾网络在真实世界图像中的表现。

###【arXiv编号】2407.13719v2
###【git】https://github.com/Troivyn/HazeCLIP
###【期刊】未指定
###【领域】计算机视觉

[推荐指数:4]

推荐理由

HazeCLIP在真实世界图像去雾领域展示了创新性和高效性,利用CLIP模型实现了更精准的去雾效果,实用性强,但期刊信息未提供。

=====

—第76篇----

=====

Static for Dynamic: Towards a Deeper Understanding of Dynamic Facial Expressions Using Static Expression Data

🔍 关键词: 动态面部表情识别, 静态面部表情识别, Vision Transformer, 自监督预训练, 多任务学习
PDF链接

摘要: 动态面部表情识别(DFER)通过表情的时间演变来推断情感,与仅依赖单一快照的静态面部表情识别(SFER)不同。时间分析提供了更丰富的信息,并有望提升识别能力。然而,当前的DFER方法由于训练样本较少,性能往往不尽如人意。鉴于静态和动态表情之间的内在相关性,我们假设利用丰富的SFER数据可以增强DFER。为此,我们提出了Static-for-Dynamic(S4D),一个统一的双模态学习框架,将SFER数据作为DFER的补充资源。具体而言,S4D采用共享的Vision Transformer(ViT)编码器-解码器架构,对面部图像和视频进行双模态自监督预训练,从而获得改进的时空表示。预训练的编码器随后在静态和动态表情数据集上进行多任务学习微调,以促进情感信息的交互。然而,研究发现传统的多任务学习会导致负迁移。为解决这一问题,我们提出了一种创新的Adapter Experts混合模块(MoAE),用于促进特定任务知识的获取,同时有效提取来自静态和动态表情数据的共享知识。大量实验表明,S4D加深了对DFER的理解,在FERV39K、MAFW和DFEW基准上设定了新的最先进性能,分别达到了53.65%、58.44%和76.68%的加权平均召回率(WAR)。此外,本文还系统地分析了SFER和DFER任务之间的相关性,进一步阐明了利用SFER的潜在益处。
总结: S4D框架通过融合静态和动态表情数据,显著提升了动态面部表情识别的性能,达到了新的最先进水平。
###【arXiv编号】
arXiv:2409.06154v2
###【git】

###【期刊】

###【领域】
计算机视觉,情感识别

[推荐指数:4]

推荐理由

该研究创新性地结合静态与动态表情数据,通过双模态自监督预训练和混合专家模块,有效提升了动态面部表情识别的性能,具有较高的学术和实用价值。


—第77篇----

=====

Efficient Progressive Image Compression with Variance-aware Masking

🔍 关键词: 逐步图像压缩, 遮蔽系统, 速率增强模块, 计算复杂度
PDF Link

摘要: 学习型逐步图像压缩正在获得越来越多的关注,因为它允许随着接收端解码的比特数增加而改善图像重构。我们提出了一种逐步图像压缩方法,其中图像首先被表示为一对基础质量和高质量的潜在表示。接下来,残差潜在表示被编码为顶部和基础表示之间的逐元素差异。我们的方案通过引入一个遮蔽系统,使残差潜在表示的每个元素从最重要到最不重要进行排序,并将其分成互补的组件,从而实现逐元素粒度的逐步图像压缩,这些组件可以分别传输给解码器,以获得不同的重构质量。该遮蔽系统不会增加额外的参数或复杂性。在接收端,任何未包含在传输组件中的顶部潜在表示的元素都可以独立地用超先验架构预测的均值替换,确保在任何中间质量级别上的可靠重构。我们还引入了速率增强模块(REMs),通过使用已解码的组件来细化熵参数的估计。我们的结果与最先进的竞争对手具有竞争力,同时显著降低了计算复杂性、解码时间和参数数量。

总结: 本文提出了一种高效的逐步图像压缩方法,通过遮蔽系统和速率增强模块在降低计算复杂度和参数数量的同时,实现了与最先进技术竞争的图像重构效果。

【arXiv编号】2411.10185

【领域】计算机视觉

[推荐指数:4]

推荐理由

该方法通过创新的遮蔽系统和速率增强模块,实现了高效的逐步图像压缩,兼具创新性和实用性,且在与最先进技术竞争的同时显著降低了计算复杂性和解码时间。


—第78篇----

=====

Image-based Multimodal Models as Intruders: Transferable Multimodal Attacks on Video-based MLLMs

🔍 关键词: 视频多模态大语言模型, 对抗攻击, 迁移性, 黑盒攻击, 多模态互动
PDF链接

摘要: 视频多模态大语言模型(V-MLLMs)在视频-文本多模态任务中表现出对对抗样本的脆弱性。然而,对抗视频样本对未见过模型的迁移性——一个常见且实际的现实场景——尚未被探索。在本文中,我们首次探讨了对抗视频样本在不同V-MLLMs之间的迁移性。我们发现现有的对抗攻击方法在V-MLLMs的黑盒设置下应用时存在显著的局限性,这些局限性归因于以下几点:(1)扰动视频特征时缺乏泛化能力,(2)仅关注稀疏关键帧,以及(3)未能整合多模态信息。为了解决这些局限性并加深对V-MLLM在黑盒场景下脆弱性的理解,我们引入了图像到视频的MLLM攻击(I2V-MLLM)。在I2V-MLLM中,我们利用基于图像的多模态模型(IMM)作为代理模型来制作对抗视频样本。通过整合多模态互动和时间信息来扰乱隐空间中的视频表示,提高对抗攻击的迁移性。此外,引入了一种扰动传播技术来处理不同的未知帧采样策略。实验结果表明,我们的方法能够生成在多个视频-文本多模态任务上对不同V-MLLMs具有强迁移性的对抗样本。与对这些模型的白盒攻击相比,我们的黑盒攻击(使用BLIP-2作为代理模型)在VideoQA任务上取得了有竞争力的性能,MSVD-QA的平均攻击成功率为55.48%,MSRVTT-QA为58.26%。我们的代码将在论文接受后发布。
总结: 本文提出了一种利用图像多模态模型作为代理,生成具有高迁移性的对抗视频样本方法,以攻击视频多模态大语言模型。
###【arXiv编号】2501.01042v2
###【git】无
###【期刊】无
###【领域】计算机视觉, 计算机安全, 机器学习

[推荐指数:4]

推荐理由

本文在视频多模态大语言模型对抗攻击领域进行了开创性研究,提出的方法具有较高的创新性和实用性,能够有效提升攻击的迁移性和成功率。


—第79篇----

=====

Alignment without Over-optimization: Training-Free Solution for Diffusion Models

🔍 关键词: cs.LG, cs.AI, cs.CV, math.ST, stat.TH
PDF链接

摘要: 扩散模型在生成任务中表现优异,但在保持其多功能性的同时,将其与特定目标对齐仍然是一项挑战。现有的微调方法通常受到奖励过度优化的困扰,而近似指导方法则未能有效地优化目标奖励。针对这些限制,我们提出了一种基于顺序蒙特卡罗(SMC)的无需训练的采样方法,以从与奖励对齐的目标分布中采样。我们的方法针对扩散采样进行了定制,并结合了温度调节技术,达到了与微调方法相当或更优的目标奖励,同时保持了多样性和跨奖励的泛化能力。我们展示了其在单一奖励优化、多目标场景和在线黑盒优化中的有效性。该工作为在不牺牲扩散模型的通用能力的情况下,与多样化下游目标对齐提供了一个稳健的解决方案。代码可在 https://github.com/krafton-ai/DAS 获取。 总结: 提出了一种基于顺序蒙特卡罗的无需训练的扩散模型对齐方法,能够有效优化目标奖励且保持模型的多样性和泛化能力。
###【arXiv:2501.05803v1】
###【git: https://github.com/krafton-ai/DAS
###【期刊: 未指定】
###【领域: 计算机科学—机器学习、人工智能、计算机视觉;数学—统计理论】

[推荐指数:4]

推荐理由

该研究提供了一种创新且实用的无需训练的扩散模型对齐方法,能够有效解决现有方法在优化目标奖励时的过度优化问题,同时保持模型的多样性和泛化能力,适用于多种应用场景,且代码公开增强了其可复现性。


—第80篇----

=====

ResPanDiff: Diffusion Model for Pansharpening by Inferring Residual Inference

🔍 关键词: 扩散模型, 全色锐化, 残差推断, 计算机视觉
链接1

摘要: 扩散模型在全色锐化任务中的实现主要受限于其慢速的推理速度,这主要是由于大量的采样步骤所致。尽管已有技术旨在加速采样,但在融合多源图像时往往会牺牲性能。为缓解这一限制,我们引入了一种新颖且高效的扩散模型,称为通过推断残差推理的全色锐化扩散模型(ResPanDiff),该模型显著减少了扩散步骤的数量,同时不牺牲性能,以应对全色锐化任务。在ResPanDiff中,我们创新性地提出了一条从噪声残差到LRMS与HRMS图像之间残差的马尔可夫链,从而减少采样步骤并提升性能。此外,我们设计了潜在空间以帮助模型在编码阶段提取更多特征,浅层条件注入(SC-I)以帮助模型获取具有更高维度的条件注入隐藏特征,以及损失函数以为残差生成任务提供更好的指导,使模型能够在残差生成方面实现卓越性能。此外,在全色锐化数据集上的实验评估表明,该方法相比最近的最新技术(SOTA)取得了更优异的成果,仅需15个采样步骤,相比基准扩散模型减少了超过90%的步骤。我们的实验还包括全面的讨论和消融研究,以强调我们方法的有效性。
总结: ResPanDiff通过创新的残差推断扩散模型,大幅提升了全色锐化的效率和性能。
###【arXiv编号】 arXiv:2501.05091v2
###【git】
###【期刊】
###【领域】计算机视觉, 图像处理

[推荐指数:4]

推荐理由

ResPanDiff在减少采样步骤的同时保持甚至提升全色锐化性能,展现出高度的创新性和实用性,适合相关领域的研究参考。


—第81篇----

=====

Balanced Multi-view Clustering

🔍 关键词: 计算机视觉, 人工智能, 机器学习
PDF链接

摘要: 多视图聚类(MvC)旨在整合来自不同视图的信息,以增强模型捕捉底层数据结构的能力。MvC中广泛使用的联合训练范式可能无法充分利用多视图信息,因为对所有视图采用统一学习目标导致视图特定特征的不平衡和欠优化。例如,具有更具判别力信息的特定视图可能在联合训练过程中主导学习过程,导致其他视图被欠优化。为缓解这一问题,本文首先从每个视图特定特征提取器的梯度下降角度分析了多视图聚类联合训练范式中的不平衡现象。然后,我们提出了一种新颖的平衡多视图聚类(BMvC)方法,该方法引入了视图特定对比正则化(VCR)来调节每个视图的优化过程。具体而言,VCR将联合特征和视图特定特征捕捉到的样本相似性保留到对应视图特定特征的聚类分布中,以增强视图特定特征提取器的学习过程。此外,我们提供了理论分析,说明VCR如何自适应调节更新视图特定特征提取器参数的梯度幅度,实现平衡的多视图学习过程。通过这种方式,BMvC在利用视图特定模式和探索视图不变模式之间实现了更好的权衡,从而充分学习用于聚类任务的多视图信息。最后,在八个基准MvC数据集和两个空间分辨的转录组数据集上进行了一系列实验,以验证所提出方法相较于最先进方法的优越性。

总结: 本文提出了一种通过视图特定对比正则化实现平衡的多视图聚类方法,显著提升了多视图信息的利用效率及聚类性能。

【arXiv:2501.02564v2】

【git】

【期刊】

【领域】计算机视觉, 人工智能, 机器学习

[推荐指数:4]

推荐理由: 本文通过引入视图特定对比正则化有效解决了多视图聚类中的视图不平衡问题,方法创新且在多项数据集上表现优越,具有较高的实用价值。

=====

—第82篇----

=====

Cryptanalysis of Cancelable Biometrics Vault

🔍 关键词: 密码学, 计算机视觉
链接1

摘要: 可撤销生物识别(Cancelable Biometrics, CB)代表了一系列结合生物特征和用户特定令牌以生成安全模板的生物识别转换方案。其要求的属性包括模板的不可逆性、不可链接性和识别准确性,同时使得模板可撤销。在生物识别中,密钥绑定方案用于使用生物特征数据保护加密密钥。只有在认证期间获取到正确的生物特征数据时,密钥才能被重新计算。密钥绑定方案的应用通常是磁盘加密,其中加密密钥用于加密和解密磁盘。本文对最近的基于可撤销生物识别的密钥绑定方案——可撤销生物识别保险库(Cancelable Biometrics Vault, CBV)进行了密码分析。更具体地说,本文攻击了用于实例化CBV框架的可撤销转换方法——BioEncoding方案,针对其模板的可逆性和可链接性进行分析。随后,我们的可链接性攻击使得无需额外假设即可恢复保险库中的密钥。我们的密码分析为CBV方案的可撤销性和可链接性漏洞提供了新的视角,这些漏洞在可比的基于生物识别的密钥绑定方案中尚未被发现。
总结: 本文通过密码分析揭示了可撤销生物识别保险库方案中此前未发现的可撤销性和可链接性漏洞。
###【arXiv编号】2501.05786v1
###【git】
###【期刊】
###【领域】密码学, 计算机视觉

[推荐指数:4]

推荐理由

本文对现有的生物识别密钥绑定方案进行了深入的密码分析,发现了关键的安全漏洞,为该领域的安全设计提供了重要的参考。


—第83篇----

======

Aria: An Open Multimodal Native Mixture-of-Experts Model

🔍 关键词: cs.CV
PDF链接

摘要: 信息以多种形式存在。多模态原生AI模型对于整合现实世界信息并提供全面理解至关重要。虽然存在专有的多模态原生模型,但它们的封闭性对采用,甚至适应,都造成了障碍。为填补这一空白,我们介绍了Aria,一种开放的多模态原生模型,在广泛的多模态、语言和编码任务中表现出一流的性能。Aria是一个专家混合模型,每个视觉令牌和文本令牌分别激活3.9B和3.5B参数。它超越了Pixtral-12B和Llama3.2-11B,并在各种多模态任务中与最好的专有模型竞争。我们按照四阶段流程从头开始预训练Aria,逐步赋予模型强大的语言理解、多模态理解、长上下文窗口和指令遵循能力。我们开源了模型权重以及一个便于在实际应用中轻松采用和适应Aria的代码库。
总结: Aria是一个开源的多模态AI模型,具有一流的性能和广泛的应用潜力。

[arXiv:2410.05993v4]

[]

[]

[计算机视觉]

[推荐指数:4]

推荐理由

Aria在多模态AI领域提供了开源解决方案,展示了出色的性能和广泛的适用性,但在创新性方面还有提升空间。


—第84篇----

=====

文章名称

UV-Attack: Physical-World Adversarial Attacks for Person Detection via Dynamic-NeRF-based UV Mapping

🔍 关键词: 计算机视觉, 人工智能, 对抗攻击, 动态NeRF, 人体检测
链接1

摘要: 最近的研究中,使用补丁或基于静态3D模型的纹理修改对人体检测器进行对抗攻击由于人类动作的灵活性而成功率较低。建模各种动作引起的3D变形一直是一个主要挑战。幸运的是,动态神经辐射场(NeRF)在人类建模方面的进展提供了新的可能性。本文介绍了UV-Attack,这是一种突破性的方法,即使在广泛且未见过的人类动作下也能实现高成功率。我们通过利用基于动态NeRF的UV映射来解决上述挑战。UV-Attack能够在不同的动作和视角下生成人体图像,甚至通过从SMPL参数空间采样来创建新的动作。虽然动态NeRF模型能够对人体进行建模,但修改服装纹理具有挑战性,因为它们嵌入在神经网络参数中。为了解决这一问题,UV-Attack生成UV映射而非RGB图像,并修改纹理堆栈。这种方法实现了实时纹理编辑,使攻击更加实用。我们还提出了一种新颖的姿态变换期望损失(EoPT)以提高在未见过的姿态和视角上的规避成功率。实验表明,UV-Attack在动态视频设置中对FastRCNN模型的攻击成功率达到92.75%,显著优于仅有28.50% ASR的最先进AdvCamou攻击。此外,我们在黑盒环境下的最新YOLOv8检测器上实现了49.5% ASR。该研究突显了基于动态NeRF的UV映射在创建更有效的对抗攻击人体检测器方面的潜力,解决了建模人体运动和纹理修改的关键挑战。

总结: UV-Attack利用动态NeRF的UV映射技术,在多样的人体动作下实现了高成功率的对抗攻击。

【arXiv编号】: arXiv:2501.05783v1

【git】: 无

【期刊】: 无

【领域】: 计算机视觉, 人工智能

[推荐指数:4]

推荐理由

UV-Attack在对抗攻击领域具有高度创新性,通过动态NeRF技术显著提升了攻击成功率,具备强大的实用价值和研究意义。


—第85篇----

=====

StructSR: 通过拒绝虚假细节提高真实世界图像超分辨率

🔍 关键词: 图像超分辨率,扩散模型,结构保真
PDF链接

摘要: 基于扩散的模型在真实世界图像超分辨率(Real-ISR)方面显示出巨大的潜力,但由于这些模型的经验先验和幻觉,常常生成带有结构错误和虚假纹理细节的内容。为了解决这个问题,我们引入了StructSR,这是一种简单、有效且可即插即用的方法,能够提高结构保真度并压制基于扩散的Real-ISR中的虚假细节。StructSR在无需额外微调、外部模型先验或高级语义知识的情况下运行。其核心是结构感知筛选(SAS)机制,该机制在早期推理阶段识别与低分辨率(LR)输入具有最高结构相似性的图像,使我们能够将其作为历史结构知识以抑制虚假细节的生成。通过干预扩散推理过程,StructSR与现有的基于扩散的Real-ISR模型无缝集成。我们的实验结果表明,StructSR显著提高了结构和纹理的保真度,将PSNR和SSIM指标在合成数据集(DIV2K-Val)上平均提高了5.27%和9.36%,在两个真实世界数据集(RealSR和DRealSR)上与四种最先进的基于扩散的Real-ISR方法集成时分别提高了4.13%和8.64%。
总结: StructSR通过结构感知筛选机制,提升了基于扩散模型的真实世界图像超分辨率的结构保真度并抑制了虚假细节的生成。

###【arXiv:2501.05777】

###【期刊】

###【领域】计算机视觉

[推荐指数:4]

推荐理由

StructSR提供了一种无需额外资源即可显著提升真实图像超分辨率结构保真度的方法,具有较高的创新性和实用性,适用于计算机视觉领域的研究与应用。

=====

—第86篇----

=====

Conditional Diffusion Model for Electrical Impedance Tomography

🔍 关键词: 电阻抗断层成像, 条件扩散模型, 图像重建, 非侵入式成像, 电压一致性
链接1

摘要: 电阻抗断层成像(EIT)是一种非侵入式成像技术,已广泛应用于工业检测、医学监测和触觉感知等领域。然而,由于EIT逆问题具有固有的非线性和病态性,重建图像对测量数据高度敏感,且重建图像中常出现随机噪声伪影,极大地限制了EIT的应用。为了解决这一问题,本研究提出了一种带有电压一致性的条件扩散模型(CDMVC)。该方法包括预成像模块、用于重建的条件扩散模型、前向电压约束网络以及在采样过程中实施电压一致性约束的方案。预成像模块用于生成初始重建结果,作为条件用于训练条件扩散模型。最后,基于前向电压约束网络,在采样阶段实施电压一致性约束,结合EIT的前向信息,从而提高成像质量。研究生成了更完整的数据集,包括常见和复杂的凹形。所提出的方法通过仿真和物理实验进行了验证。实验结果表明,我们的方法能够显著提高重建图像的质量。此外,实验结果还表明,我们的方法具有良好的鲁棒性和泛化性能。
总结: 本文提出了一种创新的条件扩散模型,有效提升了电阻抗断层成像的图像重建质量和鲁棒性。

###【arXiv:2501.05769v1】
###【git】: 无
###【期刊】: 未提供
###【领域】: 计算机视觉,非侵入式成像技术

[推荐指数:4]

推荐理由

提出了带有电压一致性的条件扩散模型,显著改善了EIT图像重建的质量和鲁棒性,实验验证充分,具有较高的实用价值。


—第87篇----

=====

Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

🔍 关键词: cs.CL, cs.AI, cs.CV
链接1

摘要: 最近的多模态大型语言模型(MLLMs)的进展显著提升了其对单个图像的细粒度感知和对多图像的整体理解能力。然而,现有的MLLMs在复杂的多图像场景中实现精确定位仍面临挑战。为此,我们首先探索了一种思维链(CoT)框架,将单图像定位与多图像理解相结合。尽管在一定程度上有效,但由于其非端到端的特性,仍然不稳定,难以捕捉抽象的视觉信息。因此,我们推出了Migician,这是首个能够在多个图像中执行自由形式且精确定位的多图像定位模型。为支持这一模型,我们发布了MGrounding-630k数据集,包含来自现有数据集的多图像定位任务数据以及新生成的自由形式定位指令跟随数据。此外,我们提出了MIG-Bench,这是一个专门用于评估多图像定位能力的综合基准。实验结果表明,我们的模型在多图像定位能力上显著优于现有最佳的MLLMs,提升了21.61%,甚至超过了规模更大的70B模型。我们的代码、模型、数据集和基准均已完全开源。
总结: Migician通过创新的数据集和基准测试,实现了多图像场景下更加精确和灵活的定位,显著提升了现有多模态大型语言模型的表现。
###【arXiv编号】2501.05767v1
###【期刊】无
###【领域】计算机科学 - 计算语言学, 人工智能, 计算机视觉

[推荐指数:4]

推荐理由

该研究在多模态大型语言模型的多图像定位方面取得了显著突破,提供了创新的数据集和评估基准,具有较高的实用性和创新性,适合相关领域的研究和应用。

=====

—第88篇----

=====

StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation

🔍 关键词: 场景生成, 视频扩散模型, 时空自回归, 可控生成
链接1

摘要: 最近在大型重建和生成模型方面的进展显著提升了场景重建和新视角生成的能力。然而,由于计算限制,每次使用这些大型模型进行推理时仅限于小区域,使得长距离一致的场景生成具有挑战性。为了解决这个问题,我们提出了StarGen,这是一种新颖的框架,以自回归方式利用预训练的视频扩散模型进行长距离场景生成。每个视频片段的生成都基于空间上相邻图像的3D仿射变换以及先前生成的片段的时间上重叠的图像,从而在长距离场景生成中提高了时空一致性并实现了精确的姿态控制。时空条件与各种输入条件兼容,促进了多样化任务的实现,包括稀疏视角插值、永久视角生成和基于布局的城市生成。定量和定性评估表明,StarGen在可扩展性、保真度和姿态准确性方面优于现有最先进的方法。

总结: StarGen框架通过自回归使用视频扩散模型,实现了可扩展且可控的长距离场景生成,显著提升了时空一致性。

###【arXiv编号】2501.05763v1

###【git】

###【期刊】

###【领域】计算机视觉、生成模型、场景生成

[推荐指数:4]

推荐理由

StarGen在长距离场景生成方面提供了创新的解决方案,结合视频扩散模型的自回归方法显著提高了生成的一致性和控制能力,具有较高的实用性和创新性。


—第89篇----

=====

ViPOcc: Leveraging Visual Priors from Vision Foundation Models for Single-View 3D Occupancy Prediction

🔍 关键词: 单视图 3D 占用率预测, 视觉基础模型, 神经辐射场, 深度估计, 语义引导
PDF链接

摘要: 从单幅图像推断场景的3D结构是一个在以视觉为中心的自动驾驶领域中的不适定问题和挑战。现有方法通常采用神经辐射场来生成体素化3D占用率,缺乏实例级语义推理和时间光度一致性。本文提出了ViPOcc,利用视觉基础模型(VFMs)的视觉先验进行细粒度的3D占用率预测。与先前工作仅使用体积渲染进行RGB和深度图像重建不同,我们引入了一个度量深度估计分支,其中提出了逆深度对齐模块,以弥合VFM预测与真实深度分布之间的领域差距。然后,恢复的度量深度被用于时间光度对齐和空间几何对齐,以确保精确和一致的3D占用率预测。此外,我们还提出了一个语义引导的非重叠高斯混合采样器,用于高效的、实例感知的射线采样,解决了先前最先进方法中仍然存在的冗余和不均衡采样问题。大量实验证明了ViPOcc在KITTI-360和KITTI Raw数据集的3D占用率预测和深度估计任务中的优越性能。我们的代码可在此处获取。
总结: ViPOcc通过利用视觉基础模型的先验知识,实现了单幅图像中更精细和一致的3D占用率预测,在自动驾驶领域表现出色。

###【arXiv编号】2412.11210v2
###【git】https://mias.group/ViPOcc
###【期刊】
###【领域】计算机视觉,自动驾驶

[推荐指数:4]

推荐理由

ViPOcc在3D占用率预测领域引入了视觉基础模型的先验知识,增强了语义推理和时间一致性,解决了现有方法中的冗余和不均衡采样问题,具有较高的创新性和实用性。


—第90篇----

=====

GridShow: Omni Visual Generation

🔍 关键词: 视觉生成, 图像生成, 文本到视频, 三维编辑
链接1

摘要: 在本文中,我们介绍了GRID,一个将广泛的视觉生成任务重新构建为类似于胶卷排列的问题的新范式。GRID的核心将时间序列转换为网格布局,使图像生成模型能够整体处理视觉序列。为了实现布局一致性和运动连贯性,我们开发了一种并行的流匹配训练策略,结合了布局匹配和时间损失,并通过从基本布局到精确运动控制的由粗到细的计划进行指导。我们的方法展现出了显著的效率,与专用模型相比,在推理速度上提升了高达35倍,同时使用的计算资源减少了1/1000。大量实验表明,GRID在从文本到视频到三维编辑的各种视觉生成任务中表现出卓越的通用性,同时保持其基础的图像生成能力。这种在扩展应用和保留核心能力方面的双重优势确立了GRID作为一种高效且多功能的视觉生成全能解决方案。
总结: GRID提出了一种高效多功能的视觉生成新范式,显著提升了生成速度和应用范围。
###【arXiv编号】2412.10718v3
###【git】
###【期刊】
###【领域】计算机视觉

[推荐指数:5]

推荐理由

GRID在视觉生成领域引入了创新的网格布局方法,显著提升了效率和多任务适用性,是一项具有高度实用性和广泛应用前景的研究成果。


—第91篇----

=====

Locality-aware Gaussian Compression for Fast and High-quality Rendering

🔍 关键词: cs.CV
链接1

摘要: 我们提出了 LocoGS,这是一种考虑局部性的三维高斯分布(3DGS)框架,利用三维高斯的空间一致性对体积场景进行紧凑建模。为此,我们首先分析了三维高斯属性的局部一致性,并提出了一种新颖的面向局部性的三维高斯表示,该表示使用神经场有效编码局部一致的高斯属性,且存储需求最小。基于这种新表示,LocoGS 精心设计了如密集初始化、自适应球面调和带宽方案及针对不同高斯属性的不同编码方案等组件,以最大限度提升压缩性能。实验结果表明,我们的方法在典型的真实世界三维数据集上,渲染质量超过现有的紧凑高斯表示,同时存储尺寸压缩了54.6倍到96.6倍,渲染速度比3DGS提升了2.1倍到2.4倍。即使与具有相当压缩性能的最先进压缩方法相比,我们的方法的平均渲染速度也提高了2.4倍。
总结: 本文提出了一种面向局部性的三维高斯表示方法,实现了更高效的体积场景压缩和更快的渲染速度。
###【arXiv:2501.05757v1】
###【领域】计算机视觉

[推荐指数:4]

推荐理由

该研究在三维高斯分布表示与压缩方面具有较高的创新性和实用性,大幅提升了渲染效率和压缩比。


—第92篇----

=====

Semantic Mapping in Indoor Embodied AI – A Comprehensive Survey and Future Directions

🔍 关键词: 语义映射, 具身AI, 室内导航, 机器人, 计算机视觉
链接1

摘要: 智能化具身代理(如机器人)需要在不熟悉的环境中执行复杂的语义任务。在这些代理需要具备的众多技能中,构建和维护环境的语义地图是在长期任务中最为关键的。语义地图以结构化的方式捕捉有关环境的信息,允许代理在整个任务过程中引用它进行高级推理。尽管现有的具身AI综述侧重于一般进展或特定任务,如导航和操作,但本文提供了对具身AI中语义地图构建方法的全面回顾,特别是针对室内导航。我们根据它们的结构表示(空间网格、拓扑图、密集点云或混合地图)和编码的信息类型(隐式特征或显式环境数据)对这些方法进行分类。我们还探讨了地图构建技术的优缺点,强调了当前的挑战,并提出了未来的研究方向。我们确定该领域正朝着开发开放词汇、可查询、任务无关的地图表示方向发展,同时高内存需求和计算效率低仍然是待解决的挑战。本调查旨在指导当前和未来的研究人员推进具身AI系统的语义映射技术。
总结: 本文全面综述了具身AI中室内导航的语义地图构建方法,并提出了未来研究方向。

###【arXiv编号】2501.05750v1
###【git】无
###【期刊】无
###【领域】计算机科学-机器人学, 计算机视觉

[推荐指数:4]

推荐理由

本文系统性地回顾了室内具身AI中语义地图的构建方法,分析了现有技术的优势与不足,并提出了具有前瞻性的研究方向,具有较高的学术价值和应用潜力。

=====

—第93篇----

=====

LLVD: LSTM-based Explicit Motion Modeling in Latent Space for Blind Video Denoising

🔍 关键词: 计算机视觉, 机器学习, 视频去噪, LSTM, 潜在空间
PDF 链接

摘要: 视频修复在通过纠正在捕获、保存/共享及编辑过程中引入的各种退化(传感器噪声、运动模糊等)来恢复受损视频内容方面起着关键作用。本文介绍了一种新颖的算法,专为在视频捕获过程中引入噪声的场景设计,旨在通过减少不需要的噪声伪影来增强视频的视觉质量。我们提出了潜在空间长短期记忆视频去噪器(LLVD),一种端到端的盲去噪模型。LLVD 独特地结合了空间和时间特征提取,在编码特征域中使用了长短期记忆网络(LSTM)。这种 LSTM 层的集成对于保持修复视频的连续性和最小化闪烁至关重要。此外,在编码特征域中处理帧显著降低了计算量,导致架构非常轻量级。LLVD 的盲性质使其在噪声特性未知的真实场景下具有多样性。实验表明,LLVD 在合成和捕获噪声方面表现出色。具体而言,LLVD 在 RAW 去噪方面超越了当前的最新技术(SOTA)0.3dB,同时还实现了 59%的计算复杂度降低。
总结: LLVD 提供了一种高效且轻量级的盲视频去噪解决方案,在性能和计算复杂度方面均优于现有方法。
###【arXiv编号】2501.05744v1
###【git】无
###【期刊】无
###【领域】计算机视觉, 机器学习

[推荐指数:4]

推荐理由

LLVD 算法在视频去噪领域展示了较高的创新性和实用性,既提升了去噪性能又显著降低了计算复杂度,适用于实际应用场景。


—第94篇----

TB-Bench: Training and Testing Multi-Modal AI for Understanding Spatio-Temporal Traffic Behaviors from Dashcam Images/Videos

🔍 关键词: 多模态大型语言模型, 自动驾驶, 时空交通行为, 基准测试, 视觉语言指令调优
PDF链接

摘要: 多模态大型语言模型(MLLMs)在自动驾驶(AD)中的应用面临重大挑战,因为它们在交通特定数据上的训练有限,且缺乏专门用于时空理解的基准测试。本研究通过提出TB-Bench,一个全面的基准测试,旨在评估MLLMs在自车视角下理解交通行为的八个感知任务。我们还引入了视觉语言指令调优数据集TB-100k和TB-250k,以及用于这些任务的简单但有效的基线。通过大量实验,我们展示了现有MLLMs在这些任务中的表现不佳,即使是强大的模型如GPT-4o在平均准确率上也不到35%。相比之下,当使用TB-100k或TB-250k进行微调时,我们的基线模型在这些任务上的平均准确率可达85%,显著提升了任务表现。此外,我们通过与另一个交通数据集共同训练TB-100k展示了性能转移,提升了后者的表现。总体而言,本研究通过引入全面的基准测试、高质量的数据集和基线,支持了MLLMs在自动驾驶的感知、预测和规划阶段的逐步整合,标志着一大进步。
总结: 本文提出的TB-Bench基准和相关数据集显著提升了多模态AI在自动驾驶交通行为理解中的性能表现。

###【arXiv编号】arXiv:2501.05733v1
###【git】
###【期刊】
###【领域】计算机视觉,自动驾驶

[推荐指数:4]

推荐理由

该研究通过引入新的基准测试和大规模数据集,显著提升了多模态AI在自动驾驶领域的时空交通行为理解能力,具有较高的创新性和实用价值。

—第95篇----

=====

Super-class guided Transformer for Zero-Shot Attribute Classification

🔍 关键词: 计算机视觉, 零样本分类, 属性分类, Transformer, 视觉语言模型
arXiv PDF链接

摘要: 属性分类对于识别图像区域中的特定特征至关重要。视觉语言模型(VLM)通过利用大规模数据集的通用知识,在零样本任务中表现出色。近期研究表明,基于Transformer的模型通过类别查询可以有效处理零样本多标签分类。然而,对已见和未见属性之间关系的利用不足导致模型缺乏泛化能力。此外,属性分类通常涉及大量属性,导致模型的可扩展性难以维持。为了解决这些问题,我们提出了Super-class guided Transformer(SugaFormer),一个新颖的框架,利用超类来增强零样本属性分类的可扩展性和泛化性。SugaFormer采用超类查询初始化(SQI)减少查询数量,利用超类的共同语义信息,并结合多上下文解码(MD)以处理多样的视觉线索。为了加强泛化能力,我们引入了两种知识转移策略,利用VLM。在训练过程中,超类指导的一致性正则化(SCR)使用区域特定提示将SugaFormer的特征与VLM对齐;在推理过程中,基于检索的零样本分数增强(ZRSE)对未见属性的预测进行细化。大量实验证明,SugaFormer在零样本和跨数据集迁移设置下,在三个广泛使用的属性分类基准上实现了最先进的性能。我们的代码可在 GitHub 获取。
总结: SugaFormer通过超类引导和知识转移策略,实现了零样本属性分类的高可扩展性和泛化性,达到了最先进的性能。
###【arXiv编号】2501.05728v1
###【git】https://github.com/mlvlab/SugaFormer
###【期刊】未指定
###【领域】计算机视觉

[推荐指数:4]

推荐理由

SugaFormer提出了创新的超类指导方法和知识转移策略,显著提升了零样本属性分类的性能和泛化能力,具有较高的实用性和创新性。


—第96篇----

=====

Zero-shot Shark Tracking and Biometrics from Aerial Imagery

🔍 关键词: 无标签数据, 零样本学习, 鲨鱼追踪, 生物识别, 无人机影像
链接1

摘要: 最近,无人机在研究海洋动物方面的广泛应用为从空中影像中提取生物学信息提供了机会。无人机获取的大规模影像数据非常适合机器学习(ML)分析。用于分析海洋动物空中影像的ML模型开发遵循经典的训练、测试和部署新模型的范式,需要大量的时间、人力和ML专长。我们介绍了帧级对齐与追踪(FLAIR),它利用了Segment Anything Model 2(SAM2)的 视频理解和Contrastive Language-Image Pre-training(CLIP)的视觉语言能力。FLAIR以无人机视频作为输入,输出视频中感兴趣物种的分割掩码。值得注意的是,FLAIR采用零样本方法,消除了对标注数据、训练新模型或微调现有模型的需求,能够推广到其他物种。通过一个包含18,000张太平洋护士鲨无人机影像的数据集,我们训练了最先进的目标检测模型与FLAIR进行了比较。结果表明,FLAIR大幅优于这些目标检测器,并在与两种人工引导的SAM2提示方法的竞争中表现出色,达到了0.81的Dice得分。FLAIR能够不需要额外的人力干预即可推广到其他鲨鱼物种,并可结合新颖的启发式方法自动提取相关信息,包括长度和尾部拍打频率。FLAIR具有显著的潜力,可以加速空中影像分析工作流程,所需的人力和专业知识明显少于传统的机器学习工作流程,同时实现了更高的准确性。通过减少空中影像分析所需的工作量,FLAIR使科学家能够花更多时间解释结果和获取关于海洋生态系统的洞见。

总结: FLAIR方法通过零样本学习显著提升了无人机海洋动物影像分析的效率和准确性。

###【arXiv编号】2501.05717v1

###【git】

###【期刊】

###【领域】计算机视觉、人工智能、定量生物学

[推荐指数:4]

推荐理由

FLAIR方法在无需标注数据的情况下实现了对海洋动物的高效追踪和生物识别,具备高度的创新性和实用性,显著简化了无人机影像分析的工作流程。

=====

—第97篇----

=====

Infrared Image Super-Resolution: Systematic Review, and Future Trends

🔍 关键词: 图像超分辨率, 红外图像, 深度学习
链接1

摘要: 图像超分辨率(SR)对于广泛的计算机视觉和图像处理任务至关重要。研究红外(IR)图像(或热成像)超分辨率是深度学习发展的一个持续关注点。本综述旨在提供红外图像超分辨率的全面视角,包括其应用、硬件成像系统难题和图像处理方法的分类。此外,还讨论了红外图像超分辨率任务中的数据集和评估指标。此外,强调了当前技术的不足和社区可探索的有前景的方向。为了应对该领域的快速发展,我们计划定期更新相关优秀工作,网址:https://github.com/yongsongH/Infrared_Image_SR_Survey
总结: 本文系统性地综述了红外图像超分辨率的研究进展、应用及未来发展方向。

###【arXiv:2212.12322v3】
###【https://github.com/yongsongH/Infrared_Image_SR_Survey】
###【期刊】 未提供
###【领域】 图像处理, 计算机视觉, 深度学习

[推荐指数:4]

推荐理由

本文全面综述了红外图像超分辨率领域的最新研究进展与挑战,具有较高的参考价值和实用性,但作为综述性文章,其创新性评分略有保留。


—第98篇----

=====

文章名称

Factorized Diffusion: Perceptual Illusions by Noise Decomposition

🔍 关键词: 扩散模型,噪声分解,感知错觉,图像分解,混合图像
链接1

摘要: 通过将图像分解为线性组件的和,我们提出了一种零样本方法,通过扩散模型采样来控制每个独立的组件。例如,我们可以将图像分解为低空间频率和高空间频率,并根据不同的文本提示来调控这些组件。这生成了混合图像,其外观会根据观看距离的不同而变化。通过将图像分解为三个频率子带,我们可以使用三个提示生成混合图像。我们还使用灰度和颜色组件的分解来生成在灰度下观看时外观会变化的图像,这种现象在昏暗光照条件下自然发生。我们还探索了通过运动模糊核的分解,生成在运动模糊下外观会变化的图像。我们的方法通过使用复合噪声估计进行去噪,该复合噪声估计由根据不同提示条件化的噪声估计组件构建。我们还展示了对于某些分解,我们的方法能够恢复先前的组合生成和空间控制方法。最后,我们展示了可以将我们的方法扩展到从真实图像生成混合图像。我们通过固定一个组件并生成其余组件,有效地解决了一个逆问题。

总结: 本文提出了一种通过噪声分解控制图像各组件的扩散模型方法,能够生成在不同条件下外观变化的混合图像。

###【arXiv编号】arXiv:2404.11615v2

###【git】无

###【期刊】无

###【领域】计算机视觉

[推荐指数:4]

推荐理由

该研究在扩散模型领域提出了创新性的噪声分解方法,能够实现对图像不同频率和颜色组件的精确控制,具有较高的应用潜力和实用性。

=====

—第99篇----

=====

From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities

🔍 关键词: Large Vision Language Models, Activities of Daily Living, Ego-Augmented Learning, Video Understanding, EgoMimic
链接1

摘要: 大型视觉语言模型(LVLMs)在视频理解方面展示了令人印象深刻的能力,但其在日常生活活动(ADL)中的应用仍受限于无法捕捉细粒度的交互和空间关系。这一限制在ADL任务中尤为明显,因为理解详细的人物与物体的交互以及以人为中心的运动对于老年人监护和认知评估等应用至关重要。为了解决这一问题,我们旨在利用自我视角的补充特性,增强LVLM对外部视角ADL视频的理解。因此,我们提出了一种在线的ego2exo蒸馏方法,以在LVLM中学习自我增强的外部表征。虽然该方法有效,但需要配对的自我-外部训练数据,这在现实的ADL场景中难以收集。因此,我们开发了EgoMimic,这是一种基于骨架的引导方法,可以从外部视频生成模仿自我视角的视图。我们发现,经过自我增强的LVLM的外部表征成功地学习了提取自我视角线索,通过在六个ADL基准测试和我们专门设计的EgoPerceptionMCQ基准测试上的全面评估得到了证明。代码、模型和数据将开源于 https://github.com/dominickrei/EgoExo4ADL
总结: 本文通过自我增强学习方法提升大型视觉语言模型在理解外部视角日常生活活动视频中的表现,并提出了无需配对训练数据的EgoMimic方法。
###【arXiv编号】2501.05711v1
###【git】https://github.com/dominickrei/EgoExo4ADL
###【期刊】暂无
###【领域】计算机视觉、视频理解、人工智能

[推荐指数:4]

推荐理由

该研究在提升大型视觉语言模型对日常生活活动视频的理解方面具有创新性,特别是通过EgoMimic方法实现无需配对数据的自我增强学习,具有较高的实用价值,适用于老年人监护和认知评估等应用场景。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值