25.1.9 12:00 - 25.1.10 12:00 共更新92 篇
—第1篇----
=====
Explainable AI-Enhanced Deep Learning for Pumpkin Leaf Disease Detection: A Comparative Analysis of CNN Architectures
🔍 关键词: 可解释人工智能,深度学习,卷积神经网络,疾病检测,农业
PDF链接
摘要: 南瓜叶部疾病是影响农业生产的重要威胁,需要及时和精确的诊断以进行有效管理。传统的识别方法工作量大且易受人为错误影响,这凸显了自动化解决方案的必要性。本研究使用“南瓜叶病数据集”,包含2000张高分辨率图像,分为五类:霜霉病、白粉病、花叶病、细菌性叶斑病和健康叶。该数据集从多个农业田地严格收集,以确保模型训练的良好代表性。我们探索了多种高效的深度学习架构,包括DenseNet201、DenseNet121、DenseNet169、Xception、ResNet50、ResNet101和InceptionResNetV2,并观察到ResNet50表现最有效,准确率为90.5%,具有相当的精确率、召回率和F1分数。我们使用了Grad-CAM、Grad-CAM++、Score-CAM和Layer-CAM等可解释人工智能(XAI)方法,以提供模型决策过程的有意义表现,提升了对自动化疾病诊断的理解和信任。这些发现表明ResNet50在南瓜叶病检测中具有革命性潜力,能够实现更早期、更精确的治疗。
总结: 本研究展示了ResNet50在南瓜叶部疾病检测中的高效性及可解释AI技术对提升自动化诊断可信度的作用。
###【arXiv编号】2501.05449v1
###【git】无
###【期刊】无
###【领域】计算机视觉,农业应用
[推荐指数:4]
推荐理由
该研究在农业病害检测领域应用深度学习和可解释AI技术,具有较高的创新性和实用性,有助于提高疾病诊断的准确性和效率。
—第2篇----
=====
Relative Pose Estimation through Affine Corrections of Monocular Depth Priors
🔍 关键词: 单目深度估计, 相对姿态估计, 仿射校正, 计算机视觉
PDF链接
摘要: 单目深度估计(MDE)模型近年来取得了显著进展。许多MDE模型旨在从单目图像中预测仿射不变的相对深度,而大规模训练和视觉基础模型的最新发展使得度量(绝对)深度的合理估计成为可能。然而,如何有效利用这些预测进行几何视觉任务,特别是相对姿态估计,仍然相对未得到充分探索。尽管深度为跨视图图像对齐提供了丰富的约束,但来自单目深度先验的内在噪声和歧义性为改进经典特征点基方法带来了实际挑战。在本文中,我们开发了三种用于相对姿态估计的求解器,这些求解器明确考虑了独立的仿射(尺度和平移)不确定性,涵盖了校准和未校准的条件。我们进一步提出了一种混合估计流程,将我们提出的求解器与经典的基于点的求解器和极线约束相结合。我们发现,仿射校正建模不仅对相对深度先验有利,而且对“度量”深度先验也同样有益。多个数据集的结果表明,我们的方法在校准和未校准设置下均显著优于经典的基于特征点的基线和PnP基方法。我们还展示了我们的方法在不同的特征匹配器和MDE模型下的一致改进,并且可以进一步受益于这两个模块的最新进展。代码可在 GitHub 获取。
总结: 本文提出的仿射校正方法显著提升了单目深度先验在相对姿态估计中的应用效果,超越了传统方法。
【arXiv编号】2501.05446v1
【git】https://github.com/MarkYu98/madpose
【期刊】无
【领域】计算机视觉
[推荐指数:4]
推荐理由
该研究通过引入仿射校正方法,有效提升了单目深度先验在相对姿态估计中的准确性,展示了较高的创新性和实用性,对计算机视觉领域具有重要参考价值。
—第3篇----
=====
文章名称
Consistent Flow Distillation for Text-to-3D Generation
🔍 关键词: 计算机视觉, 人工智能, 机器学习
链接1
摘要: 评分蒸馏采样(SDS)在用于3D生成的图像生成模型蒸馏方面取得了显著进展。然而,其寻求最大似然的行为常常导致视觉质量和多样性的降低,限制了其在3D应用中的效果。在本研究中,我们提出了一种一致流蒸馏(CFD),以解决这些限制。我们首先利用扩散ODE或SDE采样过程的梯度来指导3D生成。从基于梯度的采样角度来看,我们发现不同视角下2D图像流的一致性对于高质量的3D生成至关重要。为此,我们在3D对象上引入了多视角一致的高斯噪声,该噪声可以从不同视角渲染,以计算流梯度。我们的实验表明,CFD通过一致的流显著优于之前的方法在文本到3D生成方面表现更佳。
总结: 本文提出了一种通过一致流蒸馏显著提升文本到3D生成质量和多样性的方法。
###【arXiv编号】
arXiv:2501.05445v1
###【git】
无
###【期刊】
预印本
###【领域】
计算机视觉,人工智能,机器学习
[推荐指数:4]
推荐理由
该研究通过引入一致流蒸馏方法有效提升了文本到3D生成的视觉质量和多样性,具有较高的创新性和实用价值,但尚需进一步验证其在实际应用中的表现,因此给予4分推荐。
=====
—第4篇----
=====
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding
🔍 关键词: cs.CV, cs.CL
链接1
摘要: 结构化图像理解,例如解释表格和图表,需要在图像中的各种结构和文本之间有策略性地重新聚焦,形成推理序列以得到最终答案。然而,当前的多模态大型语言模型(LLMs)缺乏这种多跳选择性注意能力。在本研究中,我们介绍了ReFocus,这是一种简单而有效的框架,使多模态LLMs能够通过代码对输入图像进行“视觉思维”生成,通过移动和精炼它们的视觉焦点,执行视觉编辑。具体而言,ReFocus使多模态LLMs能够生成Python代码调用工具并修改输入图像,依次绘制框、突出显示部分和遮蔽区域,从而增强视觉推理过程。我们在涉及表格和图表的广泛结构化图像理解任务上进行了实验。ReFocus在所有任务上都大幅提升了GPT-4o在无视觉编辑情况下的性能,表格任务平均提升11.0%,图表任务提高6.8%。我们深入分析了不同视觉编辑的效果,以及为何ReFocus能在不引入额外信息的情况下提升性能。此外,我们使用ReFocus收集了一个14k的训练集,并证明这样的视觉链式思维与中间信息相比,提供了比标准VQA数据更好的监督,平均比使用QA对训练的相同模型提升8.0%,比CoT提升2.6%。
总结: ReFocus通过视觉编辑增强多模态大型语言模型的结构化图像理解能力,显著提升了表格和图表任务的性能。
###【arXiv编号】2501.05452v1
###【领域】结构化图像理解
[推荐指数:4]
推荐理由
ReFocus框架创新性地通过视觉编辑为多模态LLMs提供视觉思维能力,显著提高了结构化图像理解任务的性能,具有较高的实用价值和研究意义。
—第5篇----
=====
An Empirical Study of Autoregressive Pre-training from Videos
🔍 关键词: 计算机视觉, 人工智能, 自回归预训练, 视频模型, 变换器
PDF链接
摘要: 我们对来自视频的自回归预训练进行了实证研究。为了进行我们的研究,我们构建了一系列自回归视频模型,称为Toto。我们将视频视为视觉标记的序列,并训练变换器模型自回归地预测未来的标记。我们的模型在一个多样化的视频和图像数据集上进行了预训练,该数据集包括超过1万亿个视觉标记。我们探索了不同的架构、训练和推理设计选择。我们在一系列下游任务上评估了学习到的视觉表示,包括图像识别、视频分类、目标跟踪和机器人技术。我们的结果表明,尽管归纳偏置最小,自回归预训练在所有基准测试中都表现出竞争力的性能。最后,我们发现扩大我们的视频模型会导致与语言模型类似的扩展曲线,尽管速率不同。更多细节请访问 Toto。
总结: 自回归预训练在视频模型上展示了竞争性的性能,并且随着模型规模的扩大,表现与语言模型类似。
###【arXiv编号】2501.05453v1
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 机器人
[推荐指数:4]
推荐理由
该研究系统性地探讨了自回归预训练在视频模型中的应用,展示了其在多个下游任务中的有效性,具有较高的创新性和实用性。
—第6篇----
=====
Decentralized Diffusion Models
🔍 关键词: 计算机视觉,分布式计算,机器学习
链接1
摘要: 大规模AI模型训练将工作分配给数千个GPU,然后在每个步骤中同步它们的梯度。这带来了显著的网络负担,只有集中式的大型集群才能支持,从而提高了基础设施成本并加剧了电力系统的压力。我们提出了去中心化扩散模型(Decentralized Diffusion Models),一种可扩展的框架,用于通过消除对集中式高带宽网络结构的依赖,将扩散模型训练分布到独立的集群或数据中心。我们的方法在数据集的分区上训练一组专家扩散模型,每个模型彼此完全隔离。在推理时,专家通过轻量级路由器进行集成。我们表明,集成模型共同优化与整个数据集上训练的单一模型相同的目标。这意味着我们可以将训练负担分摊到多个“计算岛”上,降低基础设施成本,并提高对局部GPU故障的弹性。去中心化扩散模型使研究人员能够利用更小、更具成本效益和更易获得的计算资源,如按需GPU节点,而不是集中集成系统。我们在ImageNet和LAION Aesthetics上进行了广泛的实验,表明去中心化扩散模型在FLOP-for-FLOP性能上超过了标准扩散模型。我们最终将我们的方法扩展到240亿参数,证明现在只需八个独立GPU节点在不到一周的时间内即可训练高质量的扩散模型。
总结: 去中心化扩散模型通过分布式训练和专家集成,降低了基础设施成本并提高了训练效率。
###【arXiv:2501.05450v1】
###【期刊】
###【领域】计算机视觉,分布式计算,机器学习
[推荐指数:4]
推荐理由
该研究提出了一种创新的分布式训练框架,显著降低了训练大规模AI模型的成本,同时提升了其效率和弹性,具有很高的实用价值。
=====
—第7篇----
=====
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark
🔍 关键词: Multimodal Large Language Models, 多模态推理, 基准测试, EMMA, 计算机视觉
链接1
摘要: 人类智能的一个支柱是能够有机地在文本和图像之间进行推理,然而多模态大型语言模型(MLLMs)在执行此类多模态推理方面的能力仍未得到充分探索。现有的基准测试通常强调以文本为主的推理或依赖于浅层的视觉线索,未能充分评估集成的视觉和文本推理。我们引入了EMMA(增强型多模态推理基准),该基准测试针对数学、物理、化学和编码中的有机多模态推理。EMMA任务要求高级的跨模态推理,这是单独在每种模态中进行推理无法解决的,为MLLMs的推理能力提供了一个增强的测试套件。我们对EMMA上最先进的MLLMs进行了评估,结果显示即使采用诸如链式思维提示和测试时计算扩展等先进技术,模型在处理复杂的多模态和多步骤推理任务方面仍存在显著的限制。这些发现强调了改进多模态架构和训练范式的必要性,以缩小人类与模型在多模态推理方面的差距。
总结: EMMA基准测试揭示了当前多模态大型语言模型在复杂推理任务中的显著不足,强调了改进多模态架构的必要性。
###【arXiv:2501.05444v1】
###【git】
###【期刊】
###【领域】
计算机视觉,多模态机器学习
[推荐指数:4]
推荐理由
EMMA作为一个全新的多模态推理基准,针对现有基准的不足,提供了更具挑战性的测试任务,对推动多模态大型语言模型的发展具有重要意义,尽管当前模型表现尚未达到理想水平,但其创新性和实用性值得高度评价。
—第8篇----
=====
Progressive Growing of Video Tokenizers for Highly Compressed Latent Spaces
🔍 关键词: cs.CV, cs.AI, eess.IV
链接1
摘要: 视频分词器对于潜在视频扩散模型至关重要,它将原始视频数据转换为时空压缩的潜在空间,以实现高效的训练。然而,将最先进的视频分词器扩展到在不增加通道容量的情况下实现超过4倍的时间压缩率,面临着重大挑战。在本研究中,我们提出了一种增强时间压缩的替代方法。我们发现,来自低压缩编码器的时间下采样视频的重建质量优于应用于原始视频的高压缩编码器。这表明高压缩模型可以利用来自低压缩模型的表示。基于这一见解,我们开发了一个引导式高时间压缩模型,该模型逐步在经过良好训练的低压缩模型之上训练高压缩块。我们的方法包括一个跨级特征混合模块,以保留来自预训练低压缩模型的信息,并指导高压缩块从完整的视频序列中捕捉剩余的细节。对视频基准的评估表明,与现有视频分词器的直接扩展相比,我们的方法显著提高了重建质量,同时增加了时间压缩。此外,所得到的紧凑潜在空间有效地训练了一个视频扩散模型,以较低的令牌预算实现高质量的视频生成。
总结: 提出一种逐步训练的高时间压缩视频分词器模型,显著提升重建质量并提高时间压缩率。
###【arXiv编号】2501.05442v1
###【git】
###【期刊】
###【领域】计算机视觉,人工智能,图像和视频处理
[推荐指数:4]
推荐理由
该研究通过引入逐步训练和跨级特征混合模块,实现了高时间压缩比下的视频重建质量提升,具有较高的创新性和实用性。
—第9篇----
=====
The GAN is dead; long live the GAN! A Modern GAN Baseline
🔍 关键词: 计算机科学, 机器学习, 计算机视觉
链接1
摘要: 有一种广泛传播的说法认为,生成对抗网络(GAN)难以训练,文献中的GAN架构充斥着经验性的技巧。我们提供了反对这一说法的证据,并以更为原则性的方式建立了一个现代GAN基准。首先,我们推导了一个行为良好的正则化相对GAN损失,解决了之前通过一堆临时技巧应对的模式丢失和不收敛问题。我们从数学上分析了我们的损失,并证明它具有局部收敛的保证,不像大多数现有的相对损失。其次,我们的新损失允许我们舍弃所有临时技巧,并用现代架构替换常见GAN中使用的过时的骨干架构。以StyleGAN2为例,我们展示了简化和现代化的路线图,从而产生了一个新的极简基线——R3GAN。尽管方法简单,我们的方法在FFHQ、ImageNet、CIFAR和Stacked MNIST数据集上超过了StyleGAN2,并且与最先进的GAN和扩散模型相比表现良好。
总结: 提出一个简化和现代化的GAN基准模型,克服了训练中的常见问题,并在多个数据集上取得了优异的性能。
###【arXiv编号】arXiv:2501.05441v1
###【git】
###【期刊】
###【领域】机器学习, 计算机视觉
[推荐指数:4]
推荐理由
该研究通过理论和实验双重手段,简化了GAN的训练过程,提升了性能,具有较高的创新性和实用性。
—第10篇----
=====
D P F ∗ DPF^* DPF∗: improved Depth Potential Function for scale-invariant sulcal depth estimation
🔍 关键词: 脑数据分析, 鞍浅深度, MRI, 尺度不变, 计算机视觉
链接1
摘要: 人类大脑的形状复杂且高度可变,脑容量、皮质折叠和年龄之间的相互作用在文献中已有充分的记录。然而,很少有研究探讨全球脑容量如何影响从解剖学MRI中得出的皮质表面的几何特征。在本研究中,我们关注鞍浅深度,这是一种在基础研究和临床应用中都受到显著关注的影像表型。我们对该领域做出了关键贡献:1)提供了脑容量如何影响鞍浅深度测量的首次定量分析;2)基于问题的原创形式化,提出了一种新颖的尺度不变鞍浅深度估计方法;3)提出了一个验证框架,并与社区共享了我们的代码和基准数据;4)使用跨越从妊娠26周到成年期的1,987名受试者的大样本,展示了我们新的鞍浅深度测量的生物学相关性。
总结: 本文提出了一种新颖的尺度不变方法,用于从MRI中估计鞍浅深度,并验证了其在大规模样本中的生物学相关性。
###【arXiv编号】2501.05436v1
###【git】
###【期刊】
###【领域】计算机科学—计算机视觉
[推荐指数:4]
推荐理由
本文在脑数据分析领域引入了创新的尺度不变鞍浅深度估计方法,并通过大规模样本验证了其生物学相关性,同时分享了代码和数据,具有较高的实用性和学术价值。
—第11篇----
=====
Gradient-based facial encoding for key generation to encrypt and decrypt multimedia data
🔍 关键词: 生物加密系统, 人脸识别, 高级加密标准 (AES), 方向梯度直方图 (HOG), 支持向量机 (SVM)
链接1
摘要: 依赖密码的安全系统容易被遗忘、猜测或被破译。同样,独立运行的生物识别系统面临模板欺骗和重放攻击的风险。本文介绍了一种利用人脸识别技术的生物加密系统,以解决这些问题,允许通过高级加密标准(AES)对各种文件类型进行加密和解密。所提系统从通过方向梯度直方图(HOG)识别并通过支持向量机(SVM)分类的面部特征中生成独特的32位加密密钥。HOG能有效识别即使在昏暗光线下也对齐的边缘面部特征,确保生成可靠的生物识别密钥。然后,该密钥与AES结合使用,对文本、音频和视频文件等多种数据格式进行加密和解密。这种从个人独特面部特征中派生的加密密钥对于攻击者来说极难复制或猜测。系统的安全性和性能通过利用相关性分析、香农熵、归一化汉明距离和在25种不同文件类型上的雪崩效应等多种指标进行了实验验证。该系统的潜在用途包括安全文件共享、在线交易和数据归档,通过将面部生物识别的独特性与AES加密的既定安全性相结合,提供了一种强大且可信的方法来保护敏感信息。
总结: 本文提出了一种结合人脸生物识别与AES加密的系统,用于安全高效地加密和解密多种多媒体数据。
###【arXiv编号】2412.06927v2
###【git】
###【期刊】
###【领域】计算机
[推荐指数:4]
推荐理由
该研究创新性地结合了人脸识别技术与AES加密,提供了一种增强数据安全性的有效方法,具备较高的实用价值,适用于多种应用场景,但在实际部署中的安全性和性能仍需进一步验证。
—第12篇----
=====
AgroGPT: Efficient Agricultural Vision-Language Model with Expert Tuning
🔍 关键词: 计算机视觉, 人工智能, 农业, 多模态模型
PDF链接
摘要: 在大型多模态会话模型(LMMs)领域取得了显著进展,利用在线大量的图像文本数据。然而,这些模型常常面临显著的领域差距,阻碍其在新领域进行复杂会话的能力。近期的努力虽然试图缓解这一问题,但依赖于特定领域的图像文本数据来策划指令调优数据。然而,许多领域如农业缺乏此类视觉语言数据。本研究提出了一种利用仅视觉数据构建农业领域指令调优数据的方法,结合跨多个领域的多样化农业数据集,策划特定类别的信息,并使用大型语言模型(LLMs)构建专家调优集,最终生成一个名为AgroInstruct的7万条专家调优数据集。随后,专家调优并创建了AgroGPT,这是一种高效的LMM,能够进行复杂的农业相关对话并提供有用的见解。我们还开发了AgroEvals用于评估,并将AgroGPT的性能与大型开源和闭源模型进行了比较。AgroGPT在识别细粒度农业概念方面表现出色,能够作为农业专家,并为多模态农业问题提供有益的信息。代码、数据集和模型可在 GitHub 获取。
总结: AgroGPT通过专家调优和利用农业视觉数据,创建了一个高效的多模态农业会话模型,能够提供专业的农业见解。
###【arXiv编号】2410.08405v2
###【git】https://github.com/awaisrauf/agroGPT
###【期刊】
###【领域】计算机科学: 计算机视觉, 人工智能
[推荐指数:4]
推荐理由
AgroGPT在农业领域缺乏视觉语言数据的情况下,通过创新的方法构建了指令调优数据集,并开发了一个能够进行复杂农业对话的高效多模态模型,具有较高的实用性和创新性。
—第13篇----
文章名称
Flatland Vision
🔍 关键词: projective geometry, projection centers, pointsets
PDF链接
摘要: 何时可以将位于一对投影平面上的两组带标签点投影到投影直线上的同一图像?我们对这个问题给出了完整的答案,并描述了允许共同图像的投影中心的位置。特别是,我们发现只有当这两组点本身是投影空间中一个共同点集的图像时,才存在该问题的解。
总结: 本文解决了两组带标签点在投影平面上投影到同一投影直线图像的条件与方法。
###【arXiv编号】2501.05429v1
###【领域】数学 - 代数几何
[推荐指数:2]
推荐理由
该研究在代数几何领域提供了关于投影图像重合条件的理论分析,但与计算机、电子、智慧交通或自动驾驶等应用领域关联较低,创新性和实用性有限。
—第14篇----
=====
Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation
🔍 关键词: 2D扩散模型, 3D生成, 高斯斑点, 计算机视觉
链接1
摘要: 最近2D图像生成的进展取得了显著的质量提升,主要得益于扩散模型的能力和大规模数据集的可用性。然而,直接进行3D生成仍受限于3D数据集的稀缺性和较低的保真度。本文介绍了Zero-1-to-G,一种新颖的方法,通过预训练的2D扩散模型实现在高斯斑点上直接单视图生成。我们的关键见解是,高斯斑点(一种3D表示)可以分解为编码不同属性的多视图图像。这将直接3D生成的挑战任务重新框定在2D扩散框架内,使我们能够利用预训练的2D扩散模型的丰富先验。为了纳入3D感知,我们引入了跨视图和跨属性注意力层,捕捉复杂的相关性并在生成的斑点之间强制3D一致性。这使得Zero-1-to-G成为第一个有效利用预训练2D扩散先验的直接图像到3D生成模型,实现了高效训练并提高了对未见对象的泛化能力。在合成和实际数据集上的广泛实验表明,该方法在3D对象生成方面具有优越的性能,提供了一种高质量3D生成的新方法。
总结: Zero-1-to-G利用预训练的2D扩散模型,实现了高质量、高效的直接3D对象生成。
###【arXiv:2501.05427v1】
###【git】
###【期刊】
###【领域】计算机视觉、3D生成
[推荐指数:4]
推荐理由
该研究创新性地将2D扩散模型应用于3D生成,显著提升了生成质量和训练效率,但实际应用的广泛性和数据多样性有待进一步验证。
—第15篇----
=====
From Images to Insights: Transforming Brain Cancer Diagnosis with Explainable AI
🔍 关键词: 脑癌诊断, 可解释人工智能, 深度学习, MRI图像, DenseNet169
链接1
摘要: 脑癌在医学诊断中代表着重大挑战,需要精确及时的检测以实现有效治疗。诊断最初依赖于放射科医师的专业技能,当专业人员稀缺时,可能会带来困难和风险。尽管使用了成像资源,脑癌诊断仍然常常困难、耗时,并且容易受到类内变异性的影响。本研究介绍了包含6,056张MRI图像的孟加拉国脑癌MRI数据集,这些图像分为三类:脑肿瘤、脑胶质瘤和脑膜瘤。该数据集来自孟加拉国的多家医院,提供了多样且现实的研究样本。我们实施了先进的深度学习模型,DenseNet169取得了卓越的结果,准确率、精确率、召回率和F1分数均达到0.9983。此外,采用了可解释人工智能(XAI)方法,包括GradCAM、GradCAM++、ScoreCAM和LayerCAM,提供了模型决策过程的可视化表示。在脑癌诊断的背景下,这些技术突出显示了DenseNet169在提高诊断准确性方面的潜力,同时提供了透明度,促进了早期诊断和更好的患者结果。
总结: DenseNet169结合可解释AI方法在脑癌MRI图像诊断中表现出高准确性与透明度,促进了早期诊断和改善患者预后。
###【arXiv编号】2501.05426v1
###【git】
###【期刊】
###【领域】计算机视觉与医疗人工智能
[推荐指数:5]
推荐理由
该研究通过高级深度学习模型及可解释AI方法,显著提升了脑癌诊断的准确性和透明度,具有高度的创新性和实用性,对医疗诊断技术发展具有重要意义。
—第16篇----
=====
文章名称
🔍 关键词: cs.SD, cs.CV, cs.GR, eess.AS
链接1
摘要: 训练音频到图像的生成模型需要大量多样化且语义对齐的音频和视觉对。这类数据几乎总是从野外视频中整理出来的,因为它们本身就具有跨模态的语义对应关系。在本研究中,我们假设坚持绝对需要真实的音频和视觉对应关系不仅是不必要的,而且会严重限制数据的规模、质量和多样性,最终影响其在现代生成模型中的应用。也就是说,我们提出了一个可扩展的图像声化框架,通过一个由现代视觉-语言模型的推理能力支持的检索过程,可以将来自各种高质量但不相交的单模态来源的实例人工配对。为了证明这种方法的有效性,我们使用我们的声化图像训练了一个与最先进水平相竞争的音频到图像生成模型。最后,通过一系列消融研究,我们展示了模型在引导图像生成过程中隐式开发的几种有趣的听觉能力,如语义混合和插值、响度校准以及通过混响进行的声学空间建模。
总结: 本文提出了一种通过视觉-语言模型检索实现音频和图像人工配对的可扩展框架,从而有效训练出与最先进模型竞争的音频到图像生成模型。
###【arXiv编号】2501.05413v1
###【git】
###【期刊】
###【领域】计算机科学(计算机视觉、图形学、音频处理)
[推荐指数:4]
推荐理由
该研究创新性地突破了对真实音频-视觉对应关系的依赖,通过先进的视觉-语言模型提升了数据的规模和多样性,对音频到图像生成具有显著的实用价值和研究潜力。
—第17篇----
=====
A Novel Pathology Foundation Model by Mayo Clinic, Charité, and Aignostics
🔍 关键词: 计算机视觉, 人工智能, 机器学习
链接1
摘要: 最近在数字病理学领域的进展展示了基础模型在多种应用中的有效性。在本报告中,我们提出了一种基于RudolfV方法的新型视觉基础模型。我们的模型训练于来自两家医疗机构——梅奥诊所和柏林Charité-Universitätsmedizin——的120万份组织病理学全片图像数据集。全面评估表明,尽管我们的模型在参数数量和训练数据集规模上都不是最大的,但在21个公共基准数据集上仍实现了最先进的性能。 总结: 介绍了一种基于RudolfV方法的新型数字病理视觉基础模型,在多个基准测试中实现了最先进的性能。
###【2501.05409v1】
###【】
###【】
###【计算机视觉,人工智能,机器学习,数字病理学】
[推荐指数:5]
推荐理由
该模型在多个公共基准数据集上达到了最先进的性能,展示了其卓越的创新性和实用性,具有广泛的应用潜力。
—第18篇----
=====
Snapshot: Towards Application-centered Models for Pedestrian Trajectory Prediction in Urban Traffic Environments
🔍 关键词: 行人轨迹预测, 城市交通, 前馈神经网络, 实时性能
链接1
摘要: 本文在城市交通中探索行人轨迹预测,同时专注于模型准确性和现实世界的适用性。虽然存在有前途的方法,但它们通常基于不包括交通相关信息的行人数据集,或者类似于既不具备实时能力也不具备鲁棒性的架构。为了解决这些限制,我们首先基于 Argoverse 2 引入了一个专门针对交通环境中行人的基准。随后,我们提出了 Snapshot,这是一种模块化的前馈神经网络,在利用显著更少信息的同时,其平均位移误差(ADE)降低了 8.8%,优于当前的最新技术。尽管采用了以代理为中心的编码方案,Snapshot 展现了可扩展性、实时性能,并对不同的运动历史具有鲁棒性。此外,通过将 Snapshot 集成到模块化的自动驾驶软件栈中,我们展示了其在现实世界中的适用性。 总结: Snapshot 通过模块化的前馈神经网络实现了在城市交通环境下更精确且实时的行人轨迹预测,展现出优越的实用性和鲁棒性。
###【arXiv编号】 arXiv:2409.01971v2
###【git】
###【期刊】
###【领域】 计算机视觉、智慧交通
[推荐指数:4]
推荐理由
该研究提出了专门针对城市交通环境的行人轨迹预测基准,并通过Snapshot模型显著提高了预测精度和实时性能,具有较高的创新性和实用价值。
—第19篇----
=====
Performance of YOLOv7 in Kitchen Safety While Handling Knife
🔍 关键词: YOLOv7, 厨房安全, 物体检测, 刀具处理
链接1
摘要: 厨房中安全的刀具操作显著降低了在食品准备过程中割伤、受伤和严重事故的风险。本研究使用先进的物体检测模型YOLOv7,重点识别刀具操作过程中的安全风险,特别是不当的手指放置和刀片与手的接触。通过精度、召回率、mAP50和mAP50-95等指标评估了模型的性能。结果表明,YOLOv7在第31个epoch时达到了最佳性能,mAP50-95得分为0.7879,精度为0.9063,召回率为0.7503。这些发现凸显了YOLOv7准确检测与刀具相关危害的潜力,促进了厨房安全的改进发展。 总结: YOLOv7模型在厨房刀具安全检测中表现出色,展示了其在提升厨房安全方面的应用潜力。
###【arXiv:2501.05399v1】
###【git】暂无
###【期刊】未提供
###【领域】计算机科学,计算机视觉
[推荐指数:4]
推荐理由
该研究将先进的YOLOv7模型应用于厨房安全,具有较高的创新性和实用性,能够有效提升厨房操作的安全性,值得关注。
—第20篇----
=====
Arc2Avatar: 通过ID引导从单张图像生成富有表现力的3D头像
🔍 关键词: 计算机视觉, 3D重建, 3D Gaussian Splatting, 表情生成, 生成模型
PDF链接
摘要: 受3D Gaussian Splatting (3DGS)在多视图设置中重建详细3D场景的有效性以及大型二维人类基础模型的出现的启发,我们介绍了Arc2Avatar,这是第一个基于SDS的方法,利用人脸基础模型作为引导,仅需单张图像作为输入。为此,我们通过在合成数据上进行微调并修改其条件,扩展了该模型以实现多视图的人头生成。我们的头像与人脸网格模板保持密集对应关系,允许基于混合形状的表情生成。这是通过修改后的3DGS方法、连接规则器和针对我们任务的战略初始化实现的。此外,我们提出了一种可选的高效SDS校正步骤,以细化混合形状表达,增强现实感和多样性。实验表明,Arc2Avatar在真实感和身份保留方面达到了最新水平,通过允许使用非常低的引导而解决了颜色问题,这得益于我们强大的身份先验和初始化策略,同时不牺牲细节。<