【cs.AI】25.1.8 arxiv更新速递

—第1篇----

=====

Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding

🔍 关键词: 机器人策略, 异构传感器, 语言基础, 多模态交互
链接1

摘要: 与世界的互动是多感官体验:实现有效的通用交互需要利用所有可用的模态——包括视觉、触觉和音频——来填补部分观察的空白。例如,当视觉被遮挡时,机器人伸手进入袋子,应依靠其触觉和声音感知。然而,最先进的通用机器人策略通常仅基于视觉和本体感知观察,从大规模数据集中训练以预测机器人动作。在本研究中,我们提出了FuSe,一种新方法,通过利用自然语言作为共同的跨模态基础,使得在没有大量数据集可用的异构传感器模态上对视觉运动通用策略进行微调。我们结合了多模态对比损失与感知基础语言生成损失,以编码高级语义。在机器人操作的背景下,我们展示了FuSe能够在零样本设置下执行需要联合推理视觉、触觉和声音等模态的复杂任务,如多模态提示、组合跨模态提示以及描述其交互对象。我们证明了相同的方法适用于广泛不同的通用策略,包括基于扩散的通用策略和大型视觉-语言-行动(VLA)模型。在现实世界中的大量实验表明,FuSe能够比所有考虑的基线提高超过20%的成功率。

总结: FuSe方法通过语言基础实现对异构传感器的微调,使通用机器人策略在多模态任务中成功率提高20%以上。

###【arXiv编号】2501.04693v1

###【git】

###【期刊】

###【领域】机器人学, 人工智能

[推荐指数:4]

推荐理由

该研究提出了创新的FuSe方法,通过语言基础实现多模态传感器的融合,显著提升了通用机器人在复杂任务中的表现,具有较高的创新性和实用性。


—第2篇----

=====

URSA:理解和验证多模态数学中的链式思维推理

🔍 关键词: 链式思维, 推理, 多模态数学, 大型语言模型, 数据合成
链接1

摘要: 链式思维(CoT)推理已广泛应用于大型语言模型(LLMs)的数学推理中。最近,对CoT轨迹引入导数过程监督激发了关于在测试时增强扩展能力的讨论,从而提升了这些模型的潜力。然而,在多模态数学推理中,高质量CoT训练数据的稀缺阻碍了现有模型实现高精度的CoT推理,并限制了在测试时实现推理潜力。在本研究中,我们提出了一种三模块综合策略,集成了CoT蒸馏、轨迹格式重写和格式统一。其结果是在多模态数学中得到高质量CoT推理指令微调数据集MMathCoT-1M。我们在多个多模态数学基准上全面验证了训练后的URSA-7B模型的最先进性能。对于测试时的扩展,我们引入了一种数据综合策略,自动生成过程注释数据集DualMath-1.1M,专注于解释和逻辑。通过在DualMath-1.1M上进一步训练URSA-7B,我们从CoT推理能力转向稳健的监督能力。训练后的URSA-RM-7B充当验证器,有效提升了URSA-7B在测试时的性能。URSA-RM-7B还展示了优异的分布外(OOD)验证能力,展示了其泛化性。模型权重、训练数据和代码将开源。
总结: 本文提出了一种综合策略,显著提升了多模态数学中链式思维推理模型的性能,并展示了其在测试时的强大验证能力。

###【arXiv编号】arXiv:2501.04686v1
###【git】
###【期刊】
###【领域】计算机科学(自然语言处理,人工智能,机器学习)

[推荐指数:4]

推荐理由

本文针对多模态数学推理中的链式思维推理问题提出了创新的解决方案,并通过全面的实验验证了其有效性,具有较高的学术价值和应用潜力。


—第3篇----

=====

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought

🔍 关键词: cs.AI, cs.CL
链接1

摘要: 我们提出了一个新颖的框架——Meta Chain-of-Thought(Meta-CoT),通过明确建模达到特定Chain-of-Thought(CoT)所需的底层推理,扩展了传统的CoT。我们展示了最先进模型在上下文中搜索行为一致的实证证据,并探讨了通过过程监督、合成数据生成和搜索算法生成Meta-CoT的方法。最后,我们概述了训练模型生成Meta-CoT的具体流程,包括使用线性化搜索轨迹的指令调优和训练后的强化学习,并讨论了开放的研究问题,如规模定律、验证器角色以及发现新颖推理算法的潜力。这项工作为在大型语言模型中实现Meta-CoT提供了理论和实践的路线图,铺平了人工智能中更强大和类人化推理的道路。

总结: 该研究提出了Meta-CoT框架,通过建模推理过程,显著增强了大型语言模型的推理能力,为人工智能的类人化推理提供了新的路径。

###【arXiv编号】2501.04682v1

###【git】

###【期刊】

###【领域】人工智能

[推荐指数:5]

推荐理由

论文提出了创新性的Meta-CoT框架,并通过实证研究展示其在提升大型语言模型推理能力方面的显著效果,具有高度的原创性和实用价值,推动了人工智能领域的前沿发展。


—第4篇----

=====

Planarian Neural Networks: Evolutionary Patterns from Basic Bilateria Shaping Modern Artificial Neural Network Architectures

🔍 关键词: cs.NE, cs.AI, cs.CV, cs.LG, 68T07
PDF Link

摘要: 本研究通过开发具有类似于生物神经网络进化模式的人工神经网络(ANNs),探讨了提高ANN在图像分类任务中预测准确性的可行性。由于ResNet是一个广泛使用的神经网络家族,具有深型和宽型变种,因此被选为本研究的基础模型。本研究旨在通过灵感来自扁形虫生物神经系统架构的新方法,改善ANN的图像分类性能,该生物架构包括一个大脑和两条神经索。我们认为,扁形虫独特的神经架构为ANN性能提升提供了有价值的见解。基于计划神经架构的神经网络在CIFAR-10和CIFAR-100数据集上进行了评估。我们的结果表明,所提出的方法在图像分类任务中的预测准确性高于基线神经网络模型。这些发现表明,生物启发的神经网络架构在提高ANN在广泛应用中的性能方面具有显著潜力。

总结: 该研究通过借鉴扁形虫的神经架构,显著提高了人工神经网络在图像分类任务中的预测准确性。

###【arXiv编号】2501.04700v1

###【git】无

###【期刊】未指定

###【领域】计算机科学, 人工智能, 计算机视觉, 机器学习

[推荐指数:4]

推荐理由

研究通过生物启发的神经网络架构创新性地提升了ANN在图像分类任务中的性能,具有较高的实用性和创新性,但尚未在多个实际场景中广泛验证。

=====

—第5篇----

=====

文章名称

Grokking at the Edge of Numerical Stability

🔍 关键词: Grokking,泛化,过拟合,深度学习,正则化,数值稳定性,Softmax崩溃(SC),梯度,Naïve损失最小化方向(NLM),StableMax, ⊥ \perp Grad,训练算法
链接1

摘要: Grokking,指在长期过拟合之后突然出现的泛化能力提升,是一个令人惊讶的现象,挑战了我们对深度学习的理解。尽管在理解grokking方面已经取得了显著进展,但延迟泛化的原因及其对正则化的依赖性仍不清楚。在本研究中,我们认为没有正则化的情况下,grokking任务会将模型推到数值稳定性的边缘,引入Softmax函数的浮点错误,我们称之为Softmax崩溃(SC)。我们证明了SC会阻止grokking,并且通过缓解SC可以在没有正则化的情况下实现grokking。研究SC的根本原因,我们发现超过过拟合点后,梯度会强烈地与我们称之为天真损失最小化(NLM)方向的方向对齐。梯度的这一组成部分不会改变模型的预测,但通过缩放logits来降低损失,通常是沿当前方向缩放权重。我们表明,这种logits的缩放解释了grokking特有的泛化延迟,并最终导致SC,阻碍进一步学习。为了验证我们的假设,我们引入了两项关键贡献,解决grokking任务中的挑战:StableMax,一种新的激活函数,防止SC并实现无正则化的grokking,和 ⊥ \perp Grad,一种通过完全防止NLM来促进grokking任务快速泛化的训练算法。这些贡献为grokking提供了新的见解,阐明了其延迟泛化、对正则化的依赖性以及现有诱导grokking方法的有效性。本文的代码可在https://github.com/LucasPrietoAl/grokking-at-the-edge-of-numerical-stability找到。
总结: 该研究通过引入新的激活函数和训练算法,揭示并解决了深度学习中grokking现象的数值稳定性问题。

###【arXiv编号】
2501.04697v1
###【git】
https://github.com/LucasPrietoAl/grokking-at-the-edge-of-numerical-stability
###【期刊】
预印本
###【领域】
计算机科学—机器学习

[推荐指数:4]

推荐理由

该研究提出了新的激活函数和训练算法,以解决深度学习中的grokking现象,并提高模型的数值稳定性,具有较高的创新性和实用性。


—第6篇----

=====

EpiCoder: Encompassing Diversity and Complexity in Code Generation

🔍 关键词: 代码生成, 大语言模型, 指令调整, 特征树, 抽象语法树
链接1

摘要: 有效的指令调整对于优化代码大语言模型(LLMs)至关重要,这不仅使模型行为与用户期望一致,还提升了模型在实际应用中的表现。然而,大多数现有方法仅关注代码片段,限制了合成数据的功能性和结构性多样性。为了解决这些限制,我们引入了一种新颖的基于特征树的合成框架,灵感来源于抽象语法树(AST)。与仅捕捉代码语法结构的AST不同,我们的框架建模代码元素之间的语义关系,从而生成更细致和多样化的数据。特征树由原始数据构建并经过迭代优化,以增加提取特征的数量和多样性。这一过程使得能够识别代码中更复杂的模式和关系。通过有控制地采样子树,我们的框架允许精确调整生成代码的复杂性,支持从简单的函数级操作到复杂的多文件场景的广泛任务。我们对广泛使用的基础模型进行了微调,创建了EpiCoder系列,在多个基准测试中在函数级和文件级均达到了最先进的性能。值得注意的是,实验证据表明,我们的方法在合成高度复杂的仓库级代码数据方面显示出显著的潜力。进一步的分析通过软件工程原理和LLM评估方法,严格评估了数据的复杂性和多样性,阐明了这一方法的优点。
总结: 该研究通过引入基于特征树的框架,显著提升了代码生成模型的复杂性和多样性,推动了代码大语言模型在实际应用中的性能表现。

###【arXiv编号】arXiv:2501.04694v1
###【git】
###【期刊】
###【领域】计算机科学, 人工智能

[推荐指数:4]

推荐理由

EpiCoder框架通过建模代码元素的语义关系,克服了现有方法的限制,显著提升了代码生成的复杂性和多样性,具有较高的创新性和实用性,适用于代码生成和优化相关研究。


—第7篇----

=====

Enhancing Financial VQA in Vision Language Models using Intermediate Structured Representations

🔍 关键词: 图表解释, 视觉数据分析, DEPLOT模块, 结构化表格, 大型语言模型
PDF Link

摘要: 图表解释对于可视化数据分析至关重要,但准确地从图表中提取信息对自动化模型提出了重大挑战。本研究探讨了DEPLOT(一种将图表图像转换为线性化表格的模态转换模块)在一个包含50,000个柱状图的定制数据集上的微调。该数据集包括简单、堆叠和分组柱状图,旨在针对这些可视化的独特结构特征。对微调后的DEPLOT模型使用1,000个图像的测试集以及两个指标进行评估:相对映射相似度(RMS),用于衡量分类映射的准确性,以及相对数字集合相似度(RNSS),用于评估数字解释的准确性。为了进一步探索大型语言模型(LLMs)的推理能力,我们整理了另外一组包含100个柱状图图像和问题答案集的配对数据。研究结果表明,与直接查询图像相比,提供结构化的中间表格与图像一起使用,显著提升了LLM的推理性能。
总结: 通过提供结构化中间表格,研究显著提升了大型语言模型在财务视觉问答中的推理能力。
###【arXiv编号】2501.04675v1
###【git】
###【期刊】
###【领域】计算机科学(自然语言处理, 人工智能, 计算机视觉, 机器学习)

[推荐指数:4]

推荐理由

该研究在视觉问答领域提出了创新的方法,通过中间结构化表示提升大型语言模型的推理能力,具有较高的实用性和研究价值,适合相关领域的学术研究和应用。

=====

—第8篇----

=====

GLoG-CSUnet: Enhancing Vision Transformers with Adaptable Radiomic Features for Medical Image Segmentation

🔍 关键词: cs.CV, cs.AI, cs.LG
链接1

摘要: 视觉Transformer(ViTs)通过捕捉远程相关性在医学图像语义分割(MISS)中表现出潜力。然而,ViTs往往在有效建模局部空间信息方面存在困难,这对于准确分割细微解剖细节尤其重要,尤其是在应用于没有大量预训练的小数据集时。我们引入了Gabor和Laplacian of Gaussian卷积Swin网络(GLoG-CSUnet),这是一种新颖的架构,通过整合可学习的放射学特征来增强基于Transformer的模型。这种方法集成了动态自适应的Gabor和Laplacian of Gaussian(LoG)滤波器,以捕捉纹理、边缘和边界信息,增强了Transformer模型处理的特征表示。我们的方法独特地结合了Transformer的长程依赖建模能力与Gabor和LoG特征的纹理分析能力。在Synapse多器官和ACDC心脏分割数据集上的评估显示,GLoG-CSUnet相较于最先进的模型显著提升,Synapse数据集的Dice得分提高了1.14%,ACDC提高了0.99%,且计算开销极小(分别仅增加15和30个参数)。GLoG-CSUnet的灵活设计允许与各种基础模型集成,为在Transformer架构中结合放射学启发的特征提取提供了一种有前景的方法,用于医学图像分析。代码实现可在GitHub上获取:https://github.com/HAAIL/GLoG-CSUnet

总结: GLoG-CSUnet通过结合可学习的Gabor和LoG特征,显著提升了Transformer模型在医学图像分割中的表现,同时保持了较低的计算开销。

###【arXiv编号】2501.02788v2

###【git】https://github.com/HAAIL/GLoG-CSUnet

###【期刊】暂无

###【领域】计算机视觉、人工智能、机器学习

[推荐指数:4]

推荐理由

GLoG-CSUnet通过创新地整合可学习的放射学特征到Transformer架构中,有效提升了医学图像分割的性能,且计算开销极低,具有较高的应用潜力。

=====

—第9篇----

=====

DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests

🔍 关键词: 计算机视觉, 人工智能
PDF链接

摘要: 大型视觉-语言模型(LVLMs)通过视觉理解增强了语言模型,使多模态推理成为可能。然而,由于文本和视觉数据之间的模态差距,它们经常面临重大挑战,如过度依赖文本先验、幻觉以及有限的复杂视觉推理能力。现有评估 LVLMs 视觉推理的基准通常依赖示意图或合成图像,并且依赖于不精确的机器生成解释。为了弥合模态差距,我们提出了 DrivingVQA,这是一个来自驾驶理论测试的新基准,用于评估复杂现实世界场景中的视觉链式思维推理。它提供了 3,931 个专家编写的多项选择题以及与推理过程相关的实体交错解释。我们利用这个数据集对 LVLMs 在复杂视觉场景中推理的能力进行了广泛研究。实验表明,开源和专有的 LVLMs 在零样本设置下的视觉链式思维推理存在困难。我们探讨了利用相关实体的训练策略以提升视觉推理能力。值得注意的是,当在与这些实体相关的裁剪区域的图像标记上进行推理时,我们观察到性能提升达 7%。

总结: DrivingVQA 引入了一个新的驾驶理论测试基准,显著提升了大型视觉-语言模型在现实复杂场景中的视觉推理能力。

###【2501.04671v1】

###【】

###【】

###【计算机视觉, 人工智能】

[推荐指数:4]

推荐理由

该研究提出了创新的 DrivingVQA 基准,针对现实世界复杂场景评估视觉-语言模型的推理能力,填补了现有基准的不足,且实验结果表明其有效性,具有较高的研究和应用价值。


—第10篇----

=====

Hierarchical Object-Oriented POMDP Planning for Object Rearrangement

🔍 关键词: 机器学习,人工智能,机器人学
链接1

摘要: 我们提出了一个在线规划框架,用于解决部分可观察、多房间环境中的多对象重新排列问题。目前的对象重新排列解决方案,主要基于强化学习或手工编码的规划方法,往往缺乏适应多样化挑战的能力。为了解决这一限制,我们引入了一种新颖的层级面向对象的部分可观察马尔可夫决策过程(HOO-POMDP)规划方法。该方法包括:(a) 一个生成子目标的面向对象的POMDP规划器,(b) 一组用于实现子目标的低级策略,以及 © 一个将连续低级世界转换为适合抽象规划的表示的抽象系统。我们在AI2-THOR模拟环境中针对不同数量的对象、房间和问题类型对我们的系统进行了评估,结果令人鼓舞。
总结: 提出了一种新颖的层级POMDP规划方法,用于在复杂环境中在线解决多对象重新排列问题。

###【arXiv编号】2412.01348v2

###【领域】计算机科学,人工智能,机器人学

[推荐指数:4]

推荐理由

该研究提出了创新的层级POMDP规划框架,提升了多对象重新排列问题的适应性和实用性,且在模拟环境中的评估结果表现良好。


—第11篇----

=====

使用构式语法评估大型语言模型的语言理解

🔍 关键词: 大型语言模型, 构式语法, 语言理解, 自然语言推理
链接1

摘要: 尽管大型语言模型具有显著的能力,但它们在令人惊讶和不可预测的方式上仍然会失败。由于它们在广泛的网络规模数据上进行训练,评估其对语言的真实“理解”尤其具有挑战性。因此,我们构建了一种评估方法,利用构式语法(CxG)系统地评估大型语言模型中的自然语言理解(NLU)。构式语法适合此目的,因为它提供了一个理论基础来构建有针对性的评估集。这些数据集经过精心构建,包括不太可能出现在预训练数据中的例子,但对于人类来说直观且易于理解,从而实现了更有针对性和更可靠的评估。我们的实验集中在下游自然语言推理和推理任务上,通过比较大型语言模型对通过8个独特构式传达的基本意义的理解与人类的理解。结果显示,虽然大型语言模型展示了一些构式信息的知识,但即使是最新的模型包括GPT-01在表达这些构式传达的抽象意义时也存在困难,特别是在测试句子与其预训练数据不相似的情况下。我们认为,这样的案例提供了对真实语言理解的更准确测试,突显了大型语言模型在语义能力方面的关键限制。我们公开了我们的新颖数据集和相关的实验数据,包括提示和模型响应。
总结: 本文利用构式语法系统评估大型语言模型的语言理解,揭示了其在处理抽象语义方面的关键局限。

###【arXiv编号】2501.04661v1
###【期刊】无
###【领域】计算机科学(自然语言处理,人工智能)

[推荐指数:4]

推荐理由

该研究采用构式语法对大型语言模型进行系统评估,具有较高的创新性和实用性,通过公开数据集和实验数据增强了研究的透明度和可重复性,深入揭示了模型在语义理解方面的局限性。

=====

—第12篇----

=====

Samba-ASR: 利用结构化状态空间模型的最先进语音识别

🔍 关键词: 计算语言学(cs.CL), 人工智能(cs.AI), 软件工程(cs.SD), 电子工程,音频和语音处理(eess.AS)
链接1

摘要: 我们提出了Samba ASR,这是第一个利用新颖的Mamba架构作为编码器和解码器的最先进自动语音识别(ASR)模型,基于结构化状态空间模型(SSM)的基础。与依赖自注意机制来捕捉依赖关系的基于变压器的ASR模型不同,Samba ASR 使用高效的状态空间动态有效地建模本地和全局时间依赖性,实现了显著的性能提升。通过解决变压器的限制,如输入长度的二次扩展和处理长距离依赖性的困难,Samba ASR 实现了更高的准确性和效率。实验结果表明,Samba ASR 在各种标准基准测试中超越了现有的开源基于变压器的ASR模型,确立了其作为ASR领域的新状态。对基准数据集的广泛评估显示了词错误率(WER)的显著改善,即使在低资源情况下也具有竞争力的性能。此外,Mamba架构固有的计算效率和参数优化使Samba ASR成为多样化ASR任务的可扩展和稳健的解决方案。我们的贡献包括开发了用于自动语音识别(ASR)的新的Samba ASR架构,展示了结构化状态空间模型(SSM)在语音序列处理方面优于基于变压器的模型。我们在公共基准上提供了全面的评估,展示了最先进(SOTA)的性能,并对计算效率、对噪声的鲁棒性和序列泛化进行了深入分析。这项工作突出了Mamba SSM作为高效且准确的ASR无变压器替代方案的可行性。通过利用状态空间建模的进步,Samba ASR 重塑了ASR的性能标准,并为该领域未来的研究设定了新的基准。

总结: Samba ASR通过采用结构化状态空间模型,显著提升了语音识别的准确性和效率,成为ASR领域的最新标准。

###【arXiv编号】2501.02832v3

###【git】无

###【期刊】无

###【领域】自动语音识别,结构化状态空间模型

[推荐指数:5]

推荐理由

Samba ASR引入了创新性的Mamba架构和结构化状态空间模型,显著提升了语音识别的准确性和效率,成功解决了传统变压器模型在处理长距离依赖和扩展性方面的局限,展现出高度的创新性和实用性,具备广泛的应用前景和研究价值。


—第13篇----

=====

A Zero-Shot Open-Vocabulary Pipeline for Dialogue Understanding

🔍 关键词: 对话状态跟踪、零样本学习、开放词汇、任务导向对话、语言模型
链接1

摘要: 对话状态跟踪(DST)对于理解用户需求和在任务导向的对话中执行适当的系统行为至关重要。现有的大多数DST方法设计用于在预定义本体内工作,并假设可用黄金域标签,难以适应新的槽值。虽然基于大型语言模型(LLMs)的系统显示出有前景的零样本DST性能,但它们要么需要大量的计算资源,要么性能不如现有的完全训练系统,限制了其实用性。为了解决这些限制,我们提出了一个零样本、开放词汇的系统,将域分类和DST整合在一个单一的流水线中。我们的方法包括将DST重新表述为一个问答任务,以适应较低能力的模型,并为更具适应性的模型采用自我完善的提示。我们的系统不依赖于本体中定义的固定槽值,允许系统动态适应。我们将我们的方法与现有的最先进方法进行比较,结果表明在Multi-WOZ 2.1等数据集上,我们的方法比之前的方法提供了多达20%的联合目标准确率(JGA),并且对LLM API的请求减少了高达90%。
总结: 提出了一种无需预定义本体、具备开放词汇能力的零样本对话状态跟踪系统,显著提升了准确率并大幅减少了对大型语言模型的依赖。
###【arXiv:2409.15861v2】
###【无】
###【预印本】
###【计算机科学,人工智能】

[推荐指数:5]

推荐理由

该研究在对话状态跟踪领域提出了创新性的零样本方法,显著提高了性能并优化了资源利用,具有高度的实用价值和创新性。


—第14篇----

=====

Knowledge Retrieval Based on Generative AI

🔍 关键词: 信息检索, 人工智能, 生成式AI, 问答系统
链接1

摘要: 本研究开发了一个基于检索增强生成(RAG)的问答系统,使用中文维基百科和Lawbank作为检索源。系统采用BGE-M3进行密集向量检索,以获取高度相关的搜索结果,并使用BGE-reranker根据查询相关性重新排序这些结果。最相关的检索结果作为大型语言模型(LLM)的参考知识,增强其回答问题的能力,建立了一个基于生成式AI的知识检索系统。通过自动和辅助性能评估两阶段评估系统的有效性。主要贡献包括:1) 提升LLM能力,通过整合BGE-M3和BGE-reranker,系统能够检索并重新排序高度相关的结果,减少幻觉现象,并动态访问授权或公共知识源;2) 改进数据隐私,定制的RAG架构使LLM能够本地运行,避免将私有数据发送到外部服务器,从而增强数据安全性,减少对商业服务的依赖,降低运营成本,并减轻隐私风险。
总结: 该研究通过整合检索增强生成技术,开发了一个提升问答系统性能并加强数据隐私保护的生成式AI知识检索系统。
###【arXiv:2501.04635v1】
###【无】
###【无】
###【信息检索,人工智能】

[推荐指数:4]

推荐理由

该研究在生成式AI与信息检索结合上具有较高的创新性,提出了有效的模型优化方法,并在数据隐私保护方面做出显著改进,但实际应用效果需进一步验证。


—第15篇----

=====

MedCoDi-M: A Multi-Prompt Foundation Model for Multimodal Medical Data Generation

🔍 关键词: MedCoDi-M, 多模态医疗数据生成, 潜在扩散模型, 基础模型, 对比学习
PDF链接
项目页面

摘要: 人工智能正在革新医疗实践,提高诊断准确性和医疗服务质量。然而,其在医疗环境中的应用仍面临重大挑战,如数据可用性和隐私限制。合成数据作为一种有前景的解决方案,既解决了数据稀缺问题,又保护了隐私。最近,潜在扩散模型已成为生成高质量合成数据的强大工具。与此同时,不同模态的整合已引起关注,强调了模型处理多模态医疗数据的必要性。现有方法在整合补充信息和同时生成多种模态方面存在困难。为了解决这一挑战,我们提出了MedCoDi-M,一个677亿参数的模型,旨在多模态医疗数据生成,遵循基础模型范式,利用对比学习和大量数据构建共享潜在空间,捕捉不同数据模态之间的关系。此外,我们引入了Multi-Prompt训练技术,显著提升了MedCoDi-M在不同设置下的生成能力。我们对MedCoDi-M进行了广泛验证:首先在MIMIC-CXR数据集上与五个竞争对手进行基准测试,该数据集是用于胸部X光和放射学报告生成的最先进数据集。其次,我们与专业放射科医生进行了视觉图灵测试,以评估生成数据的真实性和临床相关性,确保与现实世界场景的对齐。最后,我们评估了MedCoDi-M在解决医疗领域关键挑战(如匿名化、数据稀缺和不平衡学习)方面的实用性。结果令人鼓舞,展示了MedCoDi-M在医疗环境中的应用性。
总结: MedCoDi-M通过对比学习和多提示训练技术,成功生成高质量的多模态医疗数据,解决了数据稀缺与隐私保护的双重挑战。

###【arXiv编号】2501.04614v1
###【git】https://cosbidev.github.io/MedCoDi-M/
###【期刊】未公开
###【领域】计算机科学 - 人工智能、机器学习

[推荐指数:4]

推荐理由

MedCoDi-M在多模态医疗数据生成领域展现了显著的创新性和实用性,尤其通过引入Multi-Prompt训练技术,有效提升了生成数据的质量和临床相关性,具有较高的研究和应用价值。

=====

—第16篇----

=====

The Indoor-Training Effect: unexpected gains from distribution shifts in the transition function

🔍 关键词: 强化学习、马尔可夫决策过程、噪声注入、分布偏移、ATARI游戏
PDF链接

摘要: 本研究探讨了在强化学习问题中,训练和测试环境之间的转移概率发生变化是否能在特定条件下带来更好的性能。我们通过在给定的马尔可夫决策过程(MDP)中向转移函数添加可量化的参数噪声,生成新的MDP,称为噪声注入, resulting environments 称为{\delta}-环境。此过程允许我们在同一环境的变体之间定量控制噪声,作为环境之间距离的度量。传统观点认为,在相同的MDP上进行训练和测试应能获得最佳结果。然而,我们观察到,代理在无噪声环境中训练后在有噪声的{\delta}-环境中测试,其表现优于在相同的{\delta}-环境中训练和测试。我们确认这一发现不仅适用于噪声变化,还可以在ATARI游戏的各种变体中展示相同现象,包括PacMan中幽灵行为的变化和Pong中挡板行为的变化。我们在包括PacMan、Pong和Breakout在内的60种不同变体的ATARI游戏中展示了这种有趣的行为。我们将这一现象称为室内训练效应。用于重现我们的实验和实现噪声注入的代码可在 https://bit.ly/3X6CTYk 获得。

总结: 本文发现,通过在无噪声环境中训练并在有噪声环境中测试,能够显著提升强化学习代理的性能,这一现象被称为室内训练效应。

###【arXiv编号】2401.15856v2

###【git】https://bit.ly/3X6CTYk

###【期刊】arXiv

###【领域】计算机科学 - 机器学习、人工智能

[推荐指数:4]

推荐理由

本文挑战了传统的训练和测试环境应一致的观点,展示了在强化学习中通过噪声注入实现分布偏移能够提升代理性能,具有较高的创新性和实用价值。

=====

—第17篇----

=====

Incentivized Symbiosis: A Paradigm for Human-Agent Coevolution

🔍 关键词: cs.MA, cs.AI
链接1

摘要: 合作对我们的生存与进步至关重要。进化博弈论提供了一种理解促成合作成功策略的结构和激励机制的视角。随着人工智能代理成为人类系统的核心部分,合作的动态变得前所未有地重要。人机协作、契约理论以及基于透明度、问责制和信任的去中心化框架如Web3的融合,为通过建立可执行的规则和激励机制来促进人类与AI代理的合作奠定了基础。我们将“激励共生”概念化为人类与AI之间的社会契约,灵感来源于Web3原则并编码于区块链技术中,以定义和执行双方的规则、激励和后果。通过探索这一范式,我们旨在催化系统思维在AI、Web3与社会交叉领域的新研究,促进合作性人机共进化的创新路径。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值