【cs.AI】25.1.14 arxiv更新121篇
—第1篇----
=====
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them
🔍 关键词: 生成大语言模型, 幻觉, 基准测试, 自动验证, 知识源
PDF链接
摘要: 尽管生成型大型语言模型(LLM)能够生成高质量和流利的文本,但它们也会产生幻觉,即与已确立的世界知识或提供的输入上下文不一致的陈述。然而,衡量幻觉具有挑战性,因为让人类实时验证模型生成既昂贵又耗时。在本研究中,我们发布了HALoGEN,一个全面的幻觉基准,包括:(1)跨越九个领域的10,923个生成模型提示,包括编程、科学归因和摘要;(2)针对每个用例的自动高精度验证器,将LLM生成拆分为原子单位,并根据高质量的知识源验证每个单位。我们使用这个框架评估了来自14个语言模型的约150,000个生成,发现即使是表现最好的模型也充斥着幻觉(有时高达86%的生成原子事实,取决于领域)。我们进一步基于这些幻觉可能源于训练数据的错误回忆(A类错误)、训练数据中的错误知识(B类错误)或是虚构(C类错误),定义了一种新的错误分类方法。我们希望我们的框架能为生成模型幻觉的原因提供基础,并促进可信赖的大型语言模型的发展。
总结: HALoGEN提供了一个全面的幻觉基准,用于衡量和分类大型语言模型生成文本中的幻觉现象,推动可信赖的LLM的发展。
###【arXiv编号】2501.08292v1
###【git】暂无
###【期刊】未公布
###【领域】计算机科学
[推荐指数:4]
推荐理由
HALoGEN通过大规模的提示和自动验证工具,全面评估LLM的幻觉现象,为未来可信赖的语言模型研究提供了重要的基准和分类框架,具有较高的创新性和实用性。
—第2篇----
=====
A Multi-Modal Approach for Face Anti-Spoofing in Non-Calibrated Systems using Disparity Maps
🔍 关键词: 面部识别, 防欺骗, 多模态, 无校准系统, 视差图
链接1
摘要: 面部识别技术在各种应用中越来越多地使用,但易受到面部欺骗攻击。这些欺骗攻击通常涉及独特的3D结构,如打印的纸张或移动设备屏幕。尽管立体深度相机可以有效检测此类攻击,但其高成本限制了其广泛应用。相比之下,没有外部校准的双传感器系统提供了一种成本效益较高的替代方案,但无法使用立体技术计算深度。在本研究中,我们提出了一种方法,通过利用面部属性推导视差信息并估计相对深度来进行防欺骗,使用非校准系统。我们引入了一个多模态防欺骗模型,称为Disparity Model,将创建的视差图作为第三种模态,与原始的两种传感器模态结合。我们通过使用从Intel RealSense ID Solution F455收集的综合数据集证明了Disparity Model在对抗各种欺骗攻击方面的有效性。我们的方法在文献中的现有方法上取得了更好的表现,在False Positive Rate (FPR)为1%时,Equal Error Rate (EER)为1.71%,False Negative Rate (FNR)为2.77%。这些错误率比最佳对比方法分别低2.45%和7.94%。此外,我们介绍了一个模型集成,解决了3D欺骗攻击,实现了在FPR为1%时的EER为2.04%,FNR为3.83%。总体而言,我们的工作为在缺乏深度信息的非校准系统中进行防欺骗这一具有挑战性的任务提供了最先进的解决方案。
总结: 本文提出了一种利用视差图的多模态防欺骗模型,在非校准系统中有效防止面部欺骗攻击,表现优于现有方法。
###【arXiv:2410.24031v2】
###【期刊】
###【领域】计算机视觉, 人工智能
[推荐指数:4]
推荐理由
本文通过创新的方法结合视差图,提供了一种经济高效的防欺骗解决方案,并在实验中显示出优越的性能,具有较高的学术价值和实用性。
—第3篇----
=====
RMem: Restricted Memory Banks Improve Video Object Segmentation
🔍 关键词: 视频对象分割, 记忆库限制, 时间推理
PDF链接
摘要: 随着近期视频对象分割(VOS)基准测试发展到更具挑战性的场景,我们重新审视了一种简单但被忽视的策略:限制记忆库的大小。这与普遍扩展记忆库以容纳大量历史信息的做法不同。我们专门设计的“记忆解码”研究提供了支撑此策略的关键见解:扩展记忆库虽然看似有益,实际上由于冗余信息的混淆,增加了VOS模块解码相关特征的难度。通过将记忆库限制在有限数量的关键帧,我们显著提高了VOS的准确性。此过程在保持信息丰富的记忆库的同时平衡了帧的重要性和新鲜度。此外,与持续扩展相比,受限的记忆库减少了训练和推理阶段记忆长度的不一致性。这为时间推理带来了新的机会,并使我们能够引入此前被忽视的“时间位置嵌入”。最终,我们的见解体现在“RMem”中(“R”代表限制),这是一种简单而有效的VOS修改方法,在具有挑战性的VOS场景中表现出色,并在对象状态变化(在VOST数据集上)和长视频(在Long Videos数据集上)上确立了新的最先进水平。我们的代码和演示可在 https://restricted-memory.github.io/ 获取。
总结: 通过限制记忆库的大小,RMem显著提升了视频对象分割的准确性并在多项挑战性数据集上达到新的最先进水平。
###【arXiv编号】2406.08476v2
###【git】
###【期刊】
###【领域】计算机科学-计算机视觉, 人工智能
[推荐指数:4]
推荐理由
RMem提出了一种新的限制记忆库策略,有效提高了视频对象分割的准确性,并在多个挑战性数据集上实现了最先进的性能,具有较高的创新性和实用性。
—第4篇----
=====
Comparative Analysis of Efficient Adapter-Based Fine-Tuning of State-of-the-Art Transformer Models
🔍 关键词: 适配器架构, Transformer模型, 细调, 自然语言处理, 分类任务
链接1
摘要: 本研究探讨了各种适配器架构在SuperGLUE基准的监督二分类任务以及Kaggle的监督多类别新闻分类任务中的有效性。具体而言,我们比较了三种Transformer模型——DistilBERT、ELECTRA和BART——在传统细调方法与九种最先进(SoTA)的适配器架构下的分类性能和时间复杂度。分析结果显示,不同适配器架构在性能上存在差异,强调了它们在训练时间显著减少的情况下,实现与细调相当或更优性能的能力。在新的分类任务中也观察到了类似的结果,进一步支持了我们的发现,并证明适配器是细调的高效且灵活的替代方案。这项研究为在不同自然语言处理(NLP)应用中选择和实施适配器提供了有价值的见解和指导方针。
总结: 研究表明,适配器架构能够在减少训练时间的同时,达到或超过传统细调在NLP分类任务中的性能。
###【arXiv编号】2501.08271v1
###【git】
###【期刊】
###【领域】计算机科学 → 自然语言处理
[推荐指数:4]
推荐理由
该论文系统地比较了多种适配器架构在Transformer模型细调中的效率和性能,提供了实用的指导方针,具有较高的创新性和应用价值,适合在NLP领域推进模型优化。
=====
—第5篇----
=====
PokerBench: Training Large Language Models to become Professional Poker Players
🔍 关键词: cs.CL, cs.AI, cs.GT
PDF链接
摘要: 我们介绍了PokerBench——一个用于评估大型语言模型(LLMs)扑克游戏能力的基准。由于LLMs在传统自然语言处理任务中表现出色,将其应用于复杂的战略游戏如扑克带来了新的挑战。扑克是一种不完全信息的游戏,要求多种技能,如数学、推理、规划、策略,以及对博弈论和人类心理学的深刻理解。这使得扑克成为大型语言模型的下一个理想前沿。PokerBench包括与受过培训的扑克玩家合作开发的11,000个最重要的场景,分为翻前和翻后游戏。我们评估了包括GPT-4、ChatGPT 3.5以及各种Llama和Gemma系列模型在内的主要模型,发现所有最先进的LLMs在打最优扑克时表现欠佳。然而,经过微调后,这些模型显示出显著改进。我们通过让不同分数的模型彼此竞争来验证PokerBench,结果表明更高的PokerBench分数在实际扑克游戏中带来更高的胜率。通过我们微调模型与GPT-4的对战,我们还确定了简单监督微调在学习最优策略方面的局限性,表明需要更先进的方法来有效训练语言模型在游戏中表现出色。PokerBench因此提供了一个独特的基准,既可快速可靠地评估LLMs的扑克游戏能力,也可全面评估LLMs在复杂游戏场景中的进展。数据集和代码将公开在:https://github.com/pokerllm/pokerbench。
总结: PokerBench为评估和提升大型语言模型在扑克游戏中的表现提供了一个全面的基准。
###【arXiv编号】2501.08328v1
###【git】https://github.com/pokerllm/pokerbench
###【期刊】
###【领域】计算机科学 - 人工智能
[推荐指数:4]
推荐理由
该研究提出了新颖的PokerBench基准,系统评估大型语言模型在复杂战略游戏中的能力,并通过实证验证展示了其改进效果,具有较高的创新性和实用价值。
—第6篇----
=====
ADAM-1: AI and Bioinformatics for Alzheimer’s Detection and Microbiome-Clinical Data Integrations
🔍 关键词: 人工智能, 生物信息学, 阿尔茨海默病检测, 微生物组, 临床数据整合
PDF链接
摘要: 阿尔茨海默病分析模型生成1(ADAM)是一个多代理的大型语言模型(LLM)框架,旨在整合和分析多模态数据,包括微生物组谱、临床数据集和外部知识库,以增强对阿尔茨海默病(AD)的理解和检测。通过利用检索增强生成(RAG)技术和其多代理架构,ADAM-1从多样化的数据源中综合见解,并使用文献驱动的证据来上下文化发现结果。与XGBoost的比较评估显示,ADAM-1的平均F1分数相似,但方差显著降低,突显了其在小型实验室数据集中的鲁棒性和一致性。尽管目前针对二分类任务进行了优化,未来的迭代计划纳入额外的数据模态,如神经影像和生物标志物,以扩展在阿尔茨海默病研究和诊断中的可扩展性和适用性。
总结: ADAM-1通过多模态数据集成与多代理架构提高了阿尔茨海默病检测的鲁棒性和一致性。
###【arXiv编号】2501.08324v1
###【领域】计算机科学,人工智能,生物信息学,医疗健康
[推荐指数:4]
推荐理由
ADAM-1展示了在阿尔茨海默病检测中的创新数据集成方法和多代理架构,具有较高的鲁棒性和一致性,但当前主要针对二分类任务,未来扩展性值得期待。
—第7篇----
=====
Diffusion Adversarial Post-Training for One-Step Video Generation
🔍 关键词: 扩散模型, 对抗后训练, 视频生成, 模型蒸馏, 实时生成
链接1
摘要: 扩散模型广泛应用于图像和视频生成,但其迭代生成过程缓慢且成本高昂。现有的蒸馏方法在图像领域展示了一步生成的潜力,但仍存在显著的质量下降。在本研究中,我们提出了针对真实数据的对抗后训练(APT),用于扩散预训练后的单步视频生成。为了提高训练的稳定性和质量,我们对模型架构和训练流程进行了若干改进,并引入了近似的R1正则化目标。实验证明,我们的对抗后训练模型Seaweed-APT能够使用单次前向评估步骤实时生成2秒、1280x720、24fps的视频。此外,该模型还能够在单步生成1024像素的图像,其质量可与最先进的方法相媲美。
总结: 本文提出了一种创新的对抗后训练方法,实现了一步高质量的视频和图像生成,显著提升了生成效率。
###【arXiv编号】2501.08316v1
###【git】
###【期刊】
###【领域】计算机视觉,人工智能,机器学习
[推荐指数:4]
推荐理由
该研究在扩散模型蒸馏和实时视频生成方面具有创新性和实用性,成功实现了一步生成高质量视频和图像,具有较高的学术和应用价值。
=====
—第8篇----
=====
Polynomial Threshold Functions of Bounded Tree-Width: Some Explainability and Complexity Aspects
🔍 关键词: cs.LG, cs.AI
链接1
摘要: 多变量多项式的树宽是其对应的超图的树宽,其中超边对应于其项。Makowsky和Meer将有界树宽的多变量多项式作为一种新的稀疏性条件进行了研究,这种条件允许对通常难以解决的问题进行多项式时间的求解。我们考虑了布尔变量的这种主题的一个变种。将布尔函数表示为多项式的符号的表示称为多项式阈值表示。我们讨论了可以表示为有界树宽多项式阈值函数的布尔函数,并在贝叶斯网络分类器(一种概率图模型)中展示了两个在可解释人工智能(XAI)领域的应用,这一研究领域处理许多现代机器学习模型的黑箱性质。我们还在正多项式阈值函数和通用多项式阈值函数的表示能力方面给出了一个分离结果。
总结: 本文探讨了具有有界树宽的多项式阈值函数在可解释人工智能中的应用及其复杂性。
###【arXiv编号】2501.08297
###【git】
###【期刊】
###【领域】可解释人工智能,机器学习,概率图模型
[推荐指数:4]
推荐理由
该研究引入了有界树宽的多项式阈值函数新概念,并成功应用于提升贝叶斯网络分类器的可解释性,兼具创新性与实用性。
—第9篇----
=====
AI驱动的水体分割:利用深度学习模型增强洪水监测
🔍 关键词: 水体分割, 深度学习, 洪水监测, UNet, ResNet, DeepLabv3
PDF链接
摘要: 洪水是主要的自然灾害,每年造成大量人员伤亡和经济损失,且由于气候变化,其频率不断增加。快速准确的洪水检测和监测对于减轻这些影响至关重要。本研究比较了三种深度学习模型UNet、ResNet和DeepLabv3在像素级水体分割中的性能,以辅助洪水检测,利用无人机图像、实地观测和社交媒体。研究涉及创建一个新的数据集,增强了知名基准数据集,加入了特定于洪水的图像,提高了模型的鲁棒性。测试了UNet、ResNet和DeepLabv3架构,以确定其在不同环境条件和地理位置下的有效性,并讨论了每个模型的优缺点,提供了它们在不同场景中的适用性的见解,通过预测图像分割掩模。本完全自动化方法允许这些模型在图像中隔离被洪水影响的区域,显著减少了与传统半自动化方法相比的处理时间。本研究的结果是预测每张受洪灾影响图像的分割掩模和这些模型的验证准确性。这种方法促进了及时和持续的洪水监测,为应急响应团队提供了重要数据,以减少生命损失和经济损失。它显著减少了生成洪水地图所需的时间,缩短了手动处理时间。此外,我们还提出了未来研究的方向,包括多模态数据源的集成和专门为洪水检测任务定制的鲁棒深度学习架构的发展。总体而言,我们的工作通过创新使用深度学习技术促进了洪水管理策略的进步。
总结: 本研究通过比较多种深度学习模型,开发出一种高效的自动化洪水监测方法,显著提升了洪水检测的速度和准确性。
###【arXiv编号】2501.08266v1
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 机器学习, 电气与电子工程
[推荐指数:4]
推荐理由
本研究在洪水监测领域运用了多种先进的深度学习模型,具备较高的创新性和实用性,能够显著提高洪水检测的效率和准确性,适用于实际应急响应场景。
=====
—第10篇----
=====
CriSPO: 多方面批评-建议引导的自动化提示优化用于文本生成
🔍 关键词: cs.CL, cs.AI, cs.LG
链接1
摘要: 现有的自动提示工程方法通常针对判别任务设计,其中新的任务提示会在单个反映单一方面的指标的有限反馈下进行迭代优化。然而,这些方法对于生成任务来说并非最佳,因为生成任务需要比单一数值指标更细致的指导来改进提示并优化生成文本的多个方面。为了解决这些挑战,我们提出了一种新颖的多方面批评-建议引导的自动提示优化(CriSPO)方法。CriSPO引入了一个批评-建议模块作为其核心组件。该模块自发地发现各个方面,并在这些方面上比较生成文本和参考文本,提供具体的提示修改建议。这些明确的批评和可操作的建议指导了一个反应式优化模块,以进行更实质性的更改,探索更广泛和更有效的搜索空间。为了通过多指标优化进一步改进CriSPO,我们引入了一个自动后缀调整(AST)扩展,以增强跨多个指标的任务提示性能。我们在4个最先进的大型语言模型(LLMs)上针对4个摘要和5个问答数据集进行了CriSPO的评估。大量实验证明,在摘要上ROUGE指标提升了3-4%,并且在问答任务中各项指标得到了显著提高。代码可在GitHub获取。
总结: CriSPO通过多方面批评与建议,显著优化文本生成提示,提升多项生成任务指标。
###【arXiv编号】
2410.02748v3
###【git】
https://github.com/amazon-science/crispo
###【期刊】
arXiv预印本
###【领域】
计算机科学—计算语言学、人工智能、机器学习
[推荐指数:4]
推荐理由
CriSPO提出了一种创新的自动提示优化方法,针对生成任务提供多方面的指导,显著提升了文本生成模型的性能,具有较高的实用性和创新性。
—第11篇----
Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models
🔍 关键词: cs.CV, cs.AI
链接1
摘要: 我们提出了Deep Compression Autoencoder(DC-AE),这是一种用于加速高分辨率扩散模型的新型自编码器模型。现有的自编码器模型在中等空间压缩比(例如8倍)上已展示出令人印象深刻的结果,但在高空间压缩比(例如64倍)上无法保持令人满意的重建精度。我们通过引入两项关键技术来解决这一挑战:(1)残差自编码,我们设计模型基于空间到通道变换的特征学习残差,以减轻高空间压缩自编码器的优化难度;(2)解耦高分辨率适应,一种高效的解耦三阶段训练策略,用于缓解高空间压缩自编码器的泛化惩罚。通过这些设计,我们将自编码器的空间压缩比提高到128倍,同时保持重建质量。将我们的DC-AE应用于潜在扩散模型中,我们在不降低准确性的情况下实现了显著的加速。例如,在ImageNet 512x512上,相比于广泛使用的SD-VAE-f8自编码器,我们的DC-AE在H100 GPU上对UViT-H提供了19.1倍的推理加速和17.9倍的训练加速,同时实现了更好的FID。我们的代码可在https://github.com/mit-han-lab/efficientvit获得。
总结: DC-AE通过引入残差自编码和解耦高分辨率适应技术,显著提高了自编码器的空间压缩比和扩散模型的加速性能。
###【arXiv编号】: 2410.10733v4
###【git】: https://github.com/mit-han-lab/efficientvit
###【期刊】: 预印本
###【领域】: 计算机视觉,人工智能
[推荐指数:4]
推荐理由
DC-AE在高空间压缩比下仍能保持良好的重建质量,并显著加速了潜在扩散模型的训练和推理过程,具有较高的创新性和实用性。
—第12篇----
=====
Eliciting In-context Retrieval and Reasoning for Long-context Large Language Models
🔍 关键词: cs.CL, cs.AI, cs.IR, cs.LG
链接1
摘要: 最近长上下文语言模型(LCLMs)的进展有望通过简化流程来改变检索增强生成(RAG)。凭借扩展的上下文窗口,LCLMs可以直接处理整个知识库并执行检索和推理——这种能力我们定义为上下文内检索与推理(ICR²)。然而,现有的基准测试如LOFT往往通过提供过于简化的上下文来高估LCLM的性能。为了解决这个问题,我们引入了ICR²,这是一个在更现实场景中评估LCLM的基准,通过包括使用强检索器检索的混淆段落。然后我们提出了三种方法来增强LCLM的性能:(1)检索然后生成的微调,(2)检索注意力探测,使用注意力头在解码期间过滤和去噪长上下文,以及(3)与生成头一起训练联合检索头。我们在LOFT和ICR²上评估了五个著名的LCLM,结果表明我们最佳的方法应用于Mistral-7B后,与原始RAG和有监督微调相比,LOFT的Exact Match分别提高了+17和+15点,ICR²提高了+13和+2点。尽管模型规模更小,但它在大多数任务上甚至超过了GPT-4-Turbo。
总结: 本文提出并验证了在实际场景中提升长上下文语言模型检索与推理能力的新方法。
###【arXiv编号】2501.08248v1
###【期刊】
###【领域】自然语言处理,语言模型,检索增强生成
[推荐指数:5]
推荐理由
本文在长上下文语言模型的检索与推理领域提出了创新性的基准和方法,显著提升了模型性能,具备高度的实用性和潜在应用价值,因此具有很高的推荐指数。
—第13篇----
=====
文章名称
Engineering LLM Powered Multi-agent Framework for Autonomous CloudOps
🔍 关键词: CloudOps, 多代理框架, 生成式人工智能, 自动化管理, 云基础设施优化
PDF链接
摘要: 云运维(CloudOps)是一个快速发展的领域,专注于云基础设施的自动化管理和优化,对于需要应对日益复杂的云环境的组织至关重要。MontyCloud Inc.是CloudOps领域的主要公司之一,利用自主机器人管理云合规性、安全性和持续运营。为了使平台更加便捷且有效,我们利用了生成式人工智能(GenAI)。为现有的MontyCloud系统开发基于GenAI的自主CloudOps解决方案面临诸多挑战,如多样化的数据源、多流程的协调以及处理复杂的工作流以自动化日常任务。为此,我们开发了MOYA,一个利用GenAI的多代理框架,平衡自主性与必要的人类控制。该框架集成了各种内部和外部系统,并针对任务编排、安全性和错误缓解等因素进行了优化,同时通过利用检索增强生成(RAG)产生准确、可靠和相关的见解。通过实践者的帮助以及使用自动检查评估,我们的多代理系统在复杂工作流上表现出比非代理方法更高的准确性、响应性和有效性。
总结: 本文提出了一个基于生成式人工智能的多代理框架MOYA,以优化和自动化云运维操作,提高系统的准确性和效率。
###【arXiv编号】2501.08243v1
###【领域】计算机科学(系统、人工智能、机器学习)
[推荐指数:4]
推荐理由
该研究在云运维自动化方面采用了先进的生成式人工智能和多代理架构,有效解决了复杂的数据集成和任务编排问题,具有较高的创新性和实用性,对于相关领域的进一步研究和工业应用具有重要参考价值。
—第14篇----
=====
A Feature-Level Ensemble Model for COVID-19 Identification in CXR Images using Choquet Integral and Differential Evolution Optimization
🔍 关键词: 计算机视觉, 人工智能, 机器学习, 图像与视频处理
链接1
摘要: COVID-19 大流行已深刻影响全球数十亿人。由于其迅速传播和严重的呼吸系统影响,它对公共卫生和医疗系统构成了挑战。减轻 COVID-19 大流行的有效策略包括整合测试以识别感染者。虽然 RT-PCR 被认为是诊断 COVID-19 的金标准,但它存在一些局限性,例如假阴性的风险。为了解决这个问题,本文介绍了一种新颖的深度学习诊断系统,该系统在集成学习框架内整合预训练的深度卷积神经网络 (DCNNs),以实现从胸部 X 光 (CXR) 图像中准确识别 COVID-19 病例。我们使用 Choquet 积分将预训练 DCNN 的最终隐藏层的特征向量结合起来,以捕捉不同 DCNN 之间的交互,这些交互是线性方法无法实现的。我们采用 Sugeno- λ \lambda λ 测度理论来推导网络子集的模糊测度,从而实现聚合。我们利用差分进化来估计模糊密度。由于聚合特征向量的复杂性,我们开发了基于 TensorFlow 的 Choquet 层以促进高效聚合。在 COVIDx 数据集上的实验结果表明,我们的集成模型在三类分类中达到了 98% 的准确率,在二类分类中达到了 99.50%,优于其组成部分 DenseNet-201 (三类 97%,二类 98.75%)、Inception-v3 (三类 96.25%,二类 98.50%) 和 Xception (三类 94.50%,二类 98%),并超过了许多之前的方法。总结: 本文提出了一种通过 Choquet 积分和差分进化优化的特征级集成模型,能够高效准确地从胸部 X 光图像中识别 COVID-19 病例。
###【arXiv编号】2501.08241v1###【git】###【期刊】###【领域】计算机视觉, 人工智能, 机器学习, 图像处理
[推荐指数:4]
推荐理由
该研究采用创新的集成学习方法和优化技术,在 COVID-19 X光图像识别领域取得了显著的准确率提升,具有高度的实用性和研究价值。
—第15篇----
=====
Dynamic Pricing in High-Speed Railways Using Multi-Agent Reinforcement Learning
🔍 关键词: 动态定价, 高速铁路, 多智能体强化学习, 马尔可夫博弈, 用户决策
链接1
摘要: 本文解决了高铁客运行业中的一个关键挑战:在竞争与合作运营商环境下设计有效的动态定价策略。为此,提出了一个基于非零和马尔可夫博弈的多智能体强化学习(MARL)框架,结合随机效用模型以捕捉乘客决策过程。不同于能源、航空和移动网络等领域的先前研究,利用深度强化学习进行铁路系统动态定价的研究较少。本文的一个主要贡献是设计了一个可参数化且多功能的强化学习模拟器RailPricing-RL,用于建模各种铁路网络配置和需求模式,同时实现用户行为的真实微观建模。该环境支持所提出的MARL框架,模拟异质智能体在最大化各自利润的同时,促进合作行为以同步连接服务。实验结果验证了该框架,展示了用户偏好如何影响MARL性能,以及定价策略如何影响乘客选择、效用和整体系统动态。本研究为推动铁路系统中的动态定价策略奠定了基础,旨在将盈利能力与系统整体效率相结合,并支持未来优化定价策略的研究。
总结: 该研究提出了一个多智能体强化学习框架,以优化高速铁路的动态定价策略,平衡盈利与系统效率。
###【arXiv:2501.08234v1】
###【git】
###【期刊】
###【领域】计算机科学, 智慧交通
[推荐指数:4]
推荐理由
该论文在高铁动态定价领域引入了多智能体强化学习方法,具备较高的创新性和实际应用价值,能够为铁路系统的效率与盈利优化提供新的解决方案。
=====
—第16篇----
=====
HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models
🔍 关键词: cs.CL, cs.AI
PDF Link
摘要: 为了在恶劣和不断变化的自然环境中茁壮成长,哺乳动物大脑进化出存储大量关于世界的知识,并不断整合新的信息,同时避免灾难性遗忘。尽管取得了令人印象深刻的成就,然而大型语言模型(LLMs),即使使用检索增强生成(RAG),在预训练后仍难以高效且有效地整合大量新经验。在本研究中,我们介绍了HippoRAG,这是一种新颖的检索框架,灵感来源于人类长期记忆的海马索引理论,旨在实现对新经验更深层次和更高效的知识整合。HippoRAG协同调度LLMs、知识图谱和个性化PageRank算法,以模拟人类记忆中新皮质和海马体的不同角色。我们将HippoRAG与现有的RAG方法在多跳问答任务上进行了比较,结果表明我们的方法比最先进的方法显著优越,提升高达20%。HippoRAG的单步检索在性能上可与迭代检索如IRCoT相媲美或更好,同时成本更低(10-30倍)且更快(6-13倍),将HippoRAG整合到IRCoT中还带来了进一步的实质性提升。最后,我们展示了我们的方法能够应对现有方法无法解决的新类型场景。代码和数据可在https://github.com/OSU-NLP-Group/HippoRAG获得。
总结: HippoRAG通过模仿人类长期记忆机制,显著提升了大型语言模型在新知识整合和多跳问答任务中的性能与效率。
###【arXiv编号】2405.14831v3
###【git】https://github.com/OSU-NLP-Group/HippoRAG
###【期刊】
###【领域】自然语言处理、人工智能
[推荐指数:5]
推荐理由
HippoRAG在模拟人类记忆机制方面具有创新性,显著提升了大型语言模型的性能和效率,且具有高度实用性,适用于多种复杂任务。
—第17篇----
=====
A Comprehensive Survey of Foundation Models in Medicine
🔍 关键词: cs.LG, cs.AI, cs.CV
PDF链接
摘要: 基础模型(FMs)是使用大规模数据集和自监督学习方法开发的大规模深度学习模型。这些模型作为不同下游任务的基础,包括医疗保健。FMs 已在医疗保健的各个领域获得了巨大成功。现有的基于医疗保健的调查尚未涵盖所有这些领域。因此,我们提供了 FMs 在医疗保健中的详细调查。我们重点关注 FMs 的历史、学习策略、旗舰模型、应用和挑战。我们探索了像 BERT 和 GPT 系列这样的 FMs 如何重塑医疗保健的各个领域,包括临床大型语言模型、医学图像分析和组学。此外,我们为由 FMs 促进的医疗保健应用提供了详细的分类法,如临床自然语言处理、医学计算机视觉、图学习和其他生物相关任务。尽管 FMs 提供了有前景的机会,但它们也有几个相关的挑战,这些挑战被详细解释。我们还概述了开放的研究问题和潜在的经验教训,以为研究人员和从业者提供有关 FMs 在医疗保健中的能力的见解,以促进其部署并减轻相关风险。
总结: 本文全面综述了基础模型在医疗保健中的应用与挑战,展示了其在临床语言模型、医学图像分析等领域的广泛用途。
###【arXiv编号】2406.10729v2
###【git】无
###【期刊】arXiv预印本
###【领域】医疗保健
[推荐指数:4]
推荐理由
该文章系统地评估了基础模型在医疗领域的应用,具有较高的学术价值和实用性,适合相关领域研究人员参考。
—第18篇----
=====
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval
🔍 关键词: 文本到图像检索, 图像修复, 语义增强, 双编码器, 跨模态三元组损失
PDF 链接
摘要: 文本到图像的人物检索(TIPR)的目标是根据给定的文本描述检索特定的人物图像。在这一任务中,一个主要的挑战是弥合视觉和文本模态之间的显著表示差距。现有方法将文本和图像映射到统一的嵌入空间进行匹配,然而文本和图像之间复杂的语义对应关系尚未得到有效构建。为了解决这一问题,我们提出了一种新颖的TIPR框架,以建立人物图像和相应文本之间的细粒度交互和对齐。具体而言,通过微调对比语言-图像预训练(CLIP)模型,首先构建了一个视觉-文本双编码器,以初步对齐图像和文本特征。其次,提出了一个文本引导的图像修复(TIR)辅助任务,将抽象的文本实体映射到特定的图像区域,提升了本地文本和视觉嵌入之间的对齐。此外,提出了跨模态三元组损失来处理困难样本,进一步增强了模型对微小差异的辨别能力。此外,还提出了一种基于剪枝的文本数据增强方法,以增强对描述中重要元素的关注,从而避免模型过度关注次要信息。实验结果表明,我们提出的方法在三个流行的基准数据集上优于最先进的方法,代码将公开发布在https://github.com/Delong-liu-bupt/SEN。
总结: 本文提出了一种创新的文本引导图像修复和语义增强框架,有效提升了文本到图像的人物检索性能。
###【arXiv:2307.09059v3】
###【https://github.com/Delong-liu-bupt/SEN】
###【arXiv 预印本】
###【计算机科学,人工智能,计算机视觉】
[推荐指数:4]
推荐理由
该研究通过细粒度的视觉和文本对齐方法及创新的辅助任务,显著提升了文本到图像人物检索的性能,具有较高的创新性和实用性。
—第19篇----
=====
使用强化学习优化卫星通信链路配置
🔍 关键词: cs.AI
PDF链接
摘要: 卫星通信是我们现代互联世界的关键技术。随着硬件的日益复杂,一个挑战是有效地配置卫星转发器上的链路(连接)。制定最佳链路配置极其复杂,依赖于许多参数和指标。有限的资源、带宽和转发器的功率的最佳使用至关重要。这样的优化问题可以使用模拟退火等元启发式方法来近似,但最近的研究结果也表明,强化学习在优化方法中可以达到相当甚至更好的性能。然而,关于卫星转发器上的链路配置尚无研究。为了填补这一研究空白,本文开发了一个转发器环境。在此环境中,比较了强化学习算法PPO与元启发式模拟退火在两个实验中的性能。结果显示,对于这个静态问题,模拟退火比PPO算法提供了更好的结果,但研究反过来也强调了强化学习在优化问题中的潜力。
总结: 本文研究了强化学习与模拟退火在卫星通信链路配置优化中的应用,发现模拟退火在静态问题上表现更佳,但强化学习展示了优化潜力。
###【arXiv编号】2501.08220v1
###【领域】计算机科学、人工智能
[推荐指数:3]
推荐理由
本研究填补了卫星转发器链路配置的研究空白,比较了模拟退火与强化学习在优化中的表现,尽管当前方法在静态问题上表现有限,但展示了强化学习的潜力,创新性和实用性中等。
—第20篇----
=====
Logic Augmented Generation
🔍 关键词: 语义知识图谱, 大型语言模型, 逻辑增强生成, 医学诊断, 气候预测
链接1
摘要: 语义知识图谱(SKG)在可扩展性、灵活性、上下文理解以及处理非结构化或模糊信息方面面临挑战。然而,SKG提供了形式化和结构化的知识,通过推理和查询实现高度可解释和可靠的结果。大型语言模型(LLMs)克服了这些限制,使其适用于开放式任务和非结构化环境,但LLMs本身既不可解释也不可靠。为了解决LLMs与SKG之间的二分法,我们提出了逻辑增强生成(LAG),结合了两者的优势。LAG将LLMs作为反应式的连续知识图谱,能够按需生成潜在的无限关系和隐含知识,而SKG则注入了具有明确逻辑和事实边界的离散启发式维度。我们在医学诊断和气候预测两项集体智能任务中展示了LAG的应用。理解LAG的属性和局限性对于启用涉及隐含知识的各种任务,以提供可解释且有效的结果至关重要。
总结: 本文提出了逻辑增强生成(LAG),结合大型语言模型与语义知识图谱的优势,旨在提升集体智能任务的可解释性和有效性。
###【arXiv编号】2411.14012v2
###【git】
###【期刊】
###【领域】人工智能, 计算语言学
[推荐指数:4]
推荐理由
逻辑增强生成(LAG)创新性地结合了大型语言模型与语义知识图谱,解决了两者之间的互补问题,具有较高的实用价值和研究潜力,适用于医学诊断和气候预测等重要领域。
—第21篇----
=====
文章名称
🔍 关键词: 大型语言模型, 临床问答, 检索增强生成, 自动评估指标
链接1
摘要: 大型语言模型(LLMs)在临床问答(QA)中展现出令人印象深刻的潜力,其中检索增强生成(RAG)已成为确保模型响应事实准确性的领先方法。然而,目前的自动化RAG指标在临床和对话使用案例中的表现不佳。使用临床人工评估响应既昂贵、不可扩展,也不利于RAG系统的持续迭代开发。为了解决这些挑战,我们介绍了ASTRID——一个用于评估基于RAG的临床QA系统的自动化和可扩展的三联评估方法,包含三个指标:上下文相关性(CR)、拒绝准确性(RA)和对话忠实性(CF)。我们新颖的评估指标CF旨在更好地捕捉模型响应对知识库的忠实性,而不会惩罚对话元素。为了验证我们的三联评估,我们整理了一个包含200多个真实患者问题的数据集,这些问题是患者在白内障手术随访期间向基于LLM的QA代理提出的——这是全球最高量级的手术——并补充了临床医生选择的紧急、临床和非临床领域外场景的问题。我们证明了CF可以比现有的定义更好地预测对话使用案例中人类对忠实性的评分。此外,我们展示了使用我们的三联评估(CF、RA和CR)与临床医生对不适当、有害或无帮助响应的评估之间的一致性。最后,使用九种不同的LLMs,我们展示了这三个指标可以与人类评估密切一致,突显了这些指标在LLM驱动的自动评估流程中的潜力。我们还发布了这些实验的提示和数据集,为进一步的研究和开发提供了有价值的资源。
总结: 本文提出了ASTRID,一个针对临床问答系统的自动化评估方法,展示了其在提升RAG系统评估准确性和可扩展性方面的有效性。
###【arXiv编号】2501.08208v1
###【git】
###【期刊】
###【领域】计算机科学,计算语言学,人工智能,医疗信息学
[推荐指数:4]
推荐理由
ASTRID提出了创新的评估指标,有效提升了临床问答系统的评估能力,具有良好的实用性和可扩展性,但尚需进一步验证其在更多实际场景中的表现。
—第22篇----
=====
Modeling Feature Maps for Quantum Machine Learning
🔍 关键词: cs.LG, cs.AI
链接1
摘要: 量子机器学习(QML)在诸如基因组序列分类等复杂任务中展现出显著潜力,但诺依斯中间规模量子(NISQ)设备上的量子噪声带来了实际挑战。本研究系统评估了各种量子噪声模型,包括去相干、振幅衰减、去极化、热噪声、位翻转和相位翻转,如何影响关键的QML算法(QSVC、Peg-QSVC、QNN、VQC)和特征映射技术(ZFeatureMap、ZZFeatureMap和PauliFeatureMap)。结果表明,QSVC在噪声下表现出显著的鲁棒性,而Peg-QSVC和QNN则对去极化和振幅衰减噪声更为敏感。尤其是PauliFeatureMap表现出特别的脆弱性,凸显了在有噪声条件下保持准确分类的困难。这些发现强调了特征映射选择和噪声缓解策略在优化QML进行基因组分类中的关键重要性,并为个性化医疗带来了有希望的影响。
总结: 研究表明,不同量子噪声模型对QML算法和特征映射的影响显著,强调了噪声缓解在基因组分类中的重要性。
###【arXiv:2501.08205v1】
###【git】
###【期刊】
###【领域】
计算机科学,人工智能
[推荐指数:4]
推荐理由
该论文系统性地评估了量子噪声对多种QML算法及特征映射的影响,提供了在NISQ设备上优化QML应用的重要见解,具有较高的创新性和实用性,尤其在个性化医疗领域展现出潜在应用价值。
—第23篇----
=====
Relaxed Rotational Equivariance via G-Biases in Vision
🔍 关键词: 群等变卷积, 旋转等变性, 计算机视觉, 对称性破缺
链接1
摘要: 群等变卷积(GConv)能够从原始数据中捕捉旋转等变性。它假设特定群下所有特征的旋转等变性是均匀且严格的。然而,现实世界的数据分布或表征很少符合严格的旋转等变性,这通常被称为系统或数据集中的旋转对称性破缺(RSB),导致GConv无法有效适应这一现象。受到此启发,我们提出了一种简单但高度有效的方法来解决这个问题,即利用一组可学习的偏置称为
G
G
G-Biases,打破严格的群约束,从而实现了松弛旋转等变卷积(RREConv)。为了验证RREConv的效率,我们在离散旋转群
C
n
\mathcal{C}_n
Cn上进行了广泛的消融实验。实验表明,所提出的基于RREConv的方法在自然图像数据集上的分类和二维目标检测任务中,与现有的基于GConv的方法相比,表现出色。
总结: 本文提出了一种通过引入G-偏置来实现松弛旋转等变性的卷积方法,显著提升了计算机视觉任务中的性能。
###【arXiv编号】2408.12454v3
###【git】
###【期刊】
###【领域】计算机视觉
[推荐指数:4]
推荐理由
该研究创新性地解决了群等变卷积在实际应用中面对的旋转对称性破缺问题,通过引入G-Biases,使卷积方法更加灵活,并在多个视觉任务中展现了优异的性能,具有较高的实用价值。
—第24篇----
=====
EmoNeXt: an Adapted ConvNeXt for Facial Emotion Recognition
🔍 关键词: 面部情感识别, ConvNeXt架构, 深度学习, 计算机视觉, 人工智能
PDF链接
摘要: 面部表情在人类交流中起着至关重要的作用,是表达各种情感的强大且有影响力的方式。随着人工智能和计算机视觉的进步,深度神经网络已成为面部情感识别的有效工具。本文提出了EmoNeXt,这是一种基于改进的ConvNeXt架构网络的新型深度学习框架用于面部表情识别。我们集成了空间变换网络(STN)以聚焦面部的富含特征区域,并引入了Squeeze-and-Excitation模块以捕捉通道间的依赖关系。此外,我们提出了一种自注意力正则化项,鼓励模型生成紧凑的特征向量。我们在FER2013数据集上展示了我们的模型在情感分类准确性方面优于现有的最先进深度学习模型。
总结: EmoNeXt通过改进的ConvNeXt架构和新模块显著提升了面部情感识别的准确性。
###【arXiv编号】arXiv:2501.08199v1
###【git】
###【期刊】
###【领域】计算机视觉,人工智能
[推荐指数:4]
推荐理由
该研究通过集成空间变换网络和Squeeze-and-Excitation模块,显著提升了面部情感识别的性能,展现出较高的创新性和实用价值。
—第25篇----
=====
PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving
🔍 关键词: cs.AI, cs.AR, cs.DC
链接1
摘要: 大型语言模型(LLMs)广泛应用于各种应用场景,但其巨大的计算需求带来了显著的挑战,特别是在HBM带宽瓶颈和设备间通信开销方面。本文提出了PRESERVE,这是一种新型的预取框架,旨在通过将模型权重和KV缓存的内存读取与集体通信操作重叠,从而优化LLM推理。通过在商业AI加速器上进行的大量实验,我们展示了在最先进的开源LLM上端到端加速高达1.6倍。此外,我们进行了设计空间探索,确定了该方法的最优硬件配置,通过选择最优的L2缓存大小,性能与成本比进一步提高了1.25倍。我们的结果表明,PRESERVE有潜力缓解内存瓶颈和通信开销,提供了一种提升LLM推理系统性能和可扩展性的解决方案。
总结: PRESERVE通过优化内存预取和通信操作,提高了大型语言模型推理系统的性能和可扩展性。
###【arXiv:2501.08192v1】
###【git】
###【期刊】
###【领域】
计算机科学中的人工智能、计算机体系结构、分布式计算等领域
[推荐指数:4]
推荐理由
PRESERVE提出了一种创新的预取框架,有效解决了LLM推理中的内存和通信瓶颈,且在实际商业AI加速器上的实验结果显示了显著的性能提升,具有良好的应用前景和实用价值。
—第26篇----
=====
A Critical Synthesis of Uncertainty Quantification and Foundation Models in Monocular Depth Estimation
🔍 关键词: cs.CV, cs.AI, cs.LG
链接1
摘要: 尽管近期的基础模型在单目深度估计方面取得了显著突破,但在实际应用中实现安全可靠的部署路径依然不明确。度量深度估计,涉及预测绝对距离,面临特殊挑战,因为即便是最先进的基础模型仍然容易发生关键错误。由于不确定性量化已成为应对这些限制并实现可信部署的有希望的方向,本文将五种不同的不确定性量化方法与当前最先进的DepthAnythingV2基础模型相结合。为了涵盖广泛的度量深度领域,我们在四个多样化的数据集上评估了它们的性能。研究发现,高斯负对数似然损失(GNLL)微调是一种特别有前景的方法,能够提供可靠的不确定性估计,同时在预测性能和计算效率方面与基线保持一致,包括训练和推理时间。通过在单目深度估计的背景下融合不确定性量化和基础模型,本文为未来旨在提升模型性能及其可解释性的研究奠定了重要基础。将这一关键综合拓展到其他重要任务,如语义分割和姿态估计,为更安全和可靠的机器视觉系统带来了令人兴奋的机会。
总结: 本文通过融合多种不确定性量化方法与先进基础模型,显著提升了单目深度估计的可靠性,为机器视觉系统的安全部署提供了坚实基础。
###【arXiv编号】2501.08188v1
###【git】
###【期刊】
###【领域】计算机视觉,人工智能,机器学习
[推荐指数:4]
推荐理由
本文在不确定性量化与基础模型的结合上具有创新性,实用性强,能够有效提升单目深度估计的可靠性和可解释性,具有较高的学术价值和应用潜力。
—第27篇----
=====
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following
🔍 关键词: cs.CL, cs.AI, cs.CE, cs.HC, cs.LG, q-bio.CB
链接1
摘要: 大型语言模型在解释复杂自然语言指令方面表现出色,使其能够执行广泛的任务。在生命科学中,单细胞RNA测序(scRNA-seq)数据被视为“细胞生物学的语言”,捕捉了单细胞水平上复杂的基因表达模式。然而,通过传统工具与这种“语言”交互通常效率低下且不直观,给研究人员带来挑战。为了解决这些限制,我们提出了InstructCell,一种多模态AI助手,利用自然语言作为更直接和灵活的单细胞分析媒介。我们构建了一个全面的多模态指令数据集,将基于文本的指令与来自不同组织和物种的scRNA-seq谱图配对。在此基础上,我们开发了一种多模态细胞语言架构,能够同时解释和处理这两种模态。InstructCell使研究人员能够使用简洁的自然语言命令完成关键任务,如细胞类型注释、条件伪细胞生成和药物敏感性预测。广泛的评估表明,InstructCell在现有单细胞基础模型的性能上持续持平或超越,并能适应多样的实验条件。更重要的是,InstructCell为探索复杂的单细胞数据提供了一个可访问且直观的工具,降低了技术门槛,促进了更深层次的生物学洞察。
总结: InstructCell通过多模态AI技术,利用自然语言指令简化和优化单细胞RNA测序数据分析,提升研究效率和灵活性。
###【arXiv编号】2501.08187v1
###【git】
###【期刊】
###【领域】计算机科学、人工智能、计算生物学
[推荐指数:4]
推荐理由
InstructCell在多模态AI与单细胞分析领域具有较高的创新性,通过自然语言接口显著提升了数据分析的便捷性和灵活性,实用性强,但因其创新性尚需更多实际应用验证,推荐指数为4分。
=====
—第28篇----
=====
Assessing AI Adoption and Digitalization in SMEs: A Framework for Implementation
🔍 关键词: cs.AI
链接1
摘要: 本研究的主要目标是考察意大利中小企业(SMEs)在数字化和人工智能(AI)整合方面的现状。相比于大型企业,中小企业在AI使用方面存在显著差距,中小企业在采用AI时面临诸多障碍。本研究识别了实现智能转型的关键驱动因素和障碍,提出了一个框架模型,以应对主要挑战并提供可行的指导方针。
总结: 本文提出了中小企业在AI采用和数字化转型中面临的挑战,并提供了一个解决这些挑战的框架模型。
###【arXiv编号】2501.08184v1
###【git】
###【期刊】
###【领域】计算机科学, 人工智能, 中小企业数字化
[推荐指数:4]
推荐理由
该研究针对中小企业在AI和数字化方面的实际问题,提出了具体的框架和指导方针,具有较高的实用性和创新性,对相关领域具有重要参考价值。
—第29篇----
=====
CG-MER: 一种基于纸牌游戏的多模态情感识别数据集
🔍 关键词: 情感计算, 情感识别, 多模态数据集, 面部表情, 语音, 手势
PDF链接
摘要: 情感计算领域在探索情感与新兴技术之间的关系方面取得了显著进展。本文通过引入一个专门为情感识别设计的综合法语多模态数据集,为该领域贡献了新颖且有价值的资源。该数据集涵盖了三种主要模态:面部表情、语音和手势,提供了对情感的整体视角。此外,该数据集有潜力整合其他模态,如自然语言处理(NLP),以扩展情感识别研究的范围。数据集是通过让参与者参与纸牌游戏会话进行策划的,在这些会话中,参与者被要求在回答各种问题时表达一系列情感。研究包括10个会话,20名参与者(9名女性和11名男性)。该数据集为进一步推进情感识别研究提供了宝贵资源,并为探索人类情感与数字技术之间的复杂联系提供了途径。
总结: 本文通过引入一个多模态法语情感识别数据集,为情感计算领域的研究提供了新的资源和视角。
[arXiv:2501.08182v1]
###【git】 无
###【期刊】 无
###【领域】 情感识别, 情感计算, 多模态学习
[推荐指数:4]
推荐理由
该研究提供了一个创新的多模态情感识别数据集,涵盖面部表情、语音和手势,具有良好的应用前景,适合情感计算和相关领域的进一步研究。
=====
—第30篇----
=====
WebWalker: Benchmarking LLMs in Web Traversal
🔍 关键词: cs.CL, cs.AI
链接1
摘要: 检索增强生成(RAG)在开放域问答任务中表现出显著的性能。然而,传统搜索引擎可能只检索到浅层内容,限制了大语言模型处理复杂、多层次信息的能力。为了解决这一问题,我们引入了WebWalkerQA,这是一个旨在评估大语言模型执行网页遍历能力的基准测试。它评估大语言模型系统地遍历网站子页面以提取高质量数据的能力。我们提出了WebWalker,这是一个通过探索-批评范式模拟人类式网页导航的多智能体框架。大量实验结果表明,WebWalkerQA具有挑战性,并通过在现实世界场景中的横向和纵向整合展示了RAG与WebWalker结合的有效性。
总结: 本文提出了WebWalkerQA基准测试和WebWalker框架,有效评估和提升了大语言模型在网页遍历和信息提取方面的能力。
###【arXiv编号】2501.07572v2
###【git】
###【期刊】
###【领域】计算机科学、人工智能
[推荐指数:4]
推荐理由
该研究通过引入新的基准测试和多智能体框架,有效提升了大语言模型在复杂网页导航和信息提取方面的能力,具有较高的创新性和实际应用价值。
—第31篇----
=====
Revolutionizing Communication with Deep Learning and XAI for Enhanced Arabic Sign Language Recognition
🔍 关键词: 深度学习, 可解释人工智能 (XAI), 阿拉伯手语识别, MobileNetV3, ResNet50, EfficientNet-B2, Grad-CAM
PDF链接
摘要: 本研究提出了一种结合最新深度学习模型(如MobileNetV3、ResNet50和EfficientNet-B2)来识别阿拉伯手语(ArSL)的综合方法。通过使用可解释AI(XAI)技术进一步增强这些模型的可解释性。使用ArSL2018和RGB阿拉伯字母手语(AASL)数据集,其中EfficientNet-B2在分别达到了99.48%和98.99%的最高准确率。主要创新包括复杂的数据增强方法以减轻类别不平衡,实施分层五折交叉验证以更好地泛化,以及使用Grad-CAM实现模型决策的清晰透明性。所提出的系统不仅在识别准确率上创下新标杆,还强调了可解释性,使其适用于医疗保健、教育和包容性通信技术等应用领域。
总结: 该研究通过集成深度学习与可解释AI技术,大幅提升了阿拉伯手语识别的准确性和可解释性,适用于多个关键应用领域。
###【arXiv编号】2501.08169v1
###【git】无
###【期刊】无
###【领域】计算机视觉, 人工智能
[推荐指数:4]
推荐理由
该论文在阿拉伯手语识别领域应用了先进的深度学习模型和可解释AI技术,显著提升了识别准确率并增强了模型的可解释性,具有较高的创新性和实用性,适用于医疗、教育及包容性通信等多个重要领域。
—第32篇----
=====
LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking
🔍 关键词: 自动驾驶, 认知感知, 双过程思维
项目页面
摘要: 尽管自主驾驶技术取得了显著进展,基于数据的方法由于其有限的推理能力仍在复杂场景中表现不佳。与此同时,随着视觉语言模型的普及,基于知识的自主驾驶系统也有了显著发展。本文提出了一种基于认知感知和双过程思维的新方法——LeapVAD。我们的方法实现了一种人类注意力机制,以识别并聚焦于影响驾驶决策的关键交通元素。通过全面的属性(包括外观、运动模式和相关风险)来表征这些对象,LeapVAD 实现了更有效的环境表示并简化了决策过程。此外,LeapVAD 结合了一种创新的双过程决策模块,模仿人类驾驶学习过程。系统包括一个分析过程(系统-II),通过逻辑推理积累驾驶经验,以及一个启发式过程(系统-I),通过微调和少量学习来完善这些知识。LeapVAD 还包括反思机制和增长的记忆库,使其能够从过去的错误中学习,并在闭环环境中不断提高性能。为了提升效率,我们开发了一个场景编码网络,能够生成紧凑的场景表示,以便快速检索相关驾驶经验。在两个领先的自主驾驶模拟器 CARLA 和 DriveArena 上进行的广泛评估表明,尽管训练数据有限,LeapVAD 相较于仅依赖摄像头的方法表现出更优的性能。全面的消融研究进一步强调了其在持续学习和领域适应方面的有效性。
总结: LeapVAD 通过结合认知感知与双过程思维,大幅提升了自主驾驶系统在复杂环境中的决策与适应能力。
###【arXiv编号】2501.08168v1
###【git】
###【期刊】
###【领域】智慧交通, 自动驾驶
[推荐指数:4]
推荐理由
本文提出了一种创新的自主驾驶方法,结合认知感知和双过程思维,显著提升了系统在复杂场景下的性能,具有较高的实用性和研究价值。
—第33篇----
=====
文章名称
大型语言模型作为非结构化文本数据评判者的潜力与风险
🔍 关键词: 大型语言模型,非结构化文本,主题分析,人工智能评估
PDF链接
摘要: 大型语言模型的快速发展使其在处理和总结非结构化文本数据方面展现出显著能力。这对分析丰富的开放式数据集,如调查回应,有重要意义,因为大型语言模型有望高效地提炼关键主题和情感。然而,随着组织越来越多地依赖这些强大的人工智能系统来理解文本反馈,一个关键问题出现了,即我们能否信任大型语言模型能够准确地代表这些基于文本的数据中的观点。虽然大型语言模型在生成类人摘要方面表现出色,但其输出可能会无意中偏离原始回应的真实内容。大型语言模型生成的输出与数据中实际存在的主题之间的差异可能导致有缺陷的决策,对组织产生深远影响。本研究探讨了大型语言模型作为评判模型评估其他大型语言模型生成的摘要的主题一致性的有效性。我们使用Anthropic Claude模型从开放式调查回应中生成主题摘要,亚马逊的Titan Express、Nova Pro和Meta的Llama作为大型语言模型评判者。将大型语言模型作为评判者的方法与使用Cohen的卡帕系数、Spearman的rho和Krippendorff的alpha的人工评估进行了比较,验证了作为传统以人为中心的评估方法的可扩展替代方案。我们的研究发现,尽管大型语言模型作为评判者提供了与人工评审员相当的可扩展解决方案,但在人类擅长捕捉微妙的、特定上下文的细微差别方面仍可能表现更好。本研究为人工智能辅助文本分析的知识体系做出了贡献。我们讨论了研究的局限性并为未来研究提供了建议,强调在各种背景和用例中推广大型语言模型评判者时需要谨慎考虑。
总结: 本研究评估了大型语言模型作为评审者在非结构化文本数据分析中的有效性,发现其在可扩展性方面与人类评审员相当,但在人类擅长的细微差别检测方面仍有不足。
###【arXiv编号】2501.08167v1
###【git】
###【期刊】
###【领域】计算机科学,人工智能,文本分析
[推荐指数:4]
推荐理由
该研究深入探讨了大型语言模型在文本数据分析中的应用潜力与风险,提供了与人类评审员对比的实证分析,具有较高的创新性和实用性,适用于相关领域的学术研究和实际应用。
—第34篇----
=====
ORFormer: Occlusion-Robust Transformer for Accurate Facial Landmark Detection
🔍 关键词: 人脸关键点检测, Transformer, 遮挡鲁棒性
PDF链接
摘要: 尽管人脸关键点检测(FLD)取得了显著进展,但现有的FLD方法在处理部分不可见的人脸(例如带有遮挡、极端光照条件或姿态的人脸)时,性能仍会下降。为了解决这个问题,我们引入了ORFormer,一种新颖的基于Transformer的方法,可以检测不可见区域并从可见部分恢复其缺失特征。具体来说,ORFormer将每个图像块的令牌与一个额外的可学习令牌——消息令牌相关联。消息令牌从除其自身块之外的所有块中聚合特征。通过比较常规嵌入和消息嵌入之间的相似性,可以评估一个块与其他块之间的共识,从而实现不可见区域的识别。然后,我们的方法使用消息令牌聚合的特征恢复被遮挡的块。利用恢复的特征,ORFormer为下游的FLD任务编译高质量的热图。大量实验证明,我们的方法生成的热图对部分遮挡具有鲁棒性。通过将生成的热图集成到现有的FLD方法中,我们的方法在诸如WFLW和COFW等具有挑战性的数据集上表现优于现有的最新技术。
总结: ORFormer是一种基于Transformer的新方法,能够有效检测和恢复部分遮挡的人脸,提升人脸关键点检测的准确性。
【arXiv编号】 arXiv:2412.13174v2
【git】
【期刊】
【领域】计算机视觉、人工智能、人脸分析
[推荐指数:5]
推荐理由
ORFormer通过引入消息令牌有效处理部分遮挡问题,显著提升了人脸关键点检测的准确性,并在多个挑战性数据集中表现优异,具有较高的创新性和实用价值。
—第35篇----
=====
I Can Find You in Seconds! Leveraging Large Language Models for Code Authorship Attribution
🔍 关键词: cs.SE, cs.AI
链接1
摘要: 源代码作者归属对于软件取证、抄袭检测和保护软件补丁完整性至关重要。现有技术通常依赖于监督机器学习,由于需要大量标注数据集,难以在不同编程语言和编码风格之间实现泛化。受到近年来大型语言模型(LLM)在自然语言作者分析中无需任务特定调优即可表现出色的启发,本文探索了利用LLM进行源代码作者归属的方法。我们进行了全面的研究,证明最先进的LLM能够成功跨不同语言进行源代码作者归属。LLM可以通过零样本提示确定两段代码是否由同一作者编写,达到马修斯相关系数(MCC)为0.78,并且能够通过少量样本学习从参考代码片段中归属代码作者,MCC为0.77。此外,LLM在面对错误归属攻击时表现出一定的对抗鲁棒性。尽管具备这些能力,我们发现简单提示LLM在大量作者情况下由于输入标记限制而难以扩展。为解决此问题,我们提出了一种锦标赛式的归属方法。在来自GitHub的C++(500位作者,26,355个样本)和Java(686位作者,55,267个样本)数据集上评估该方法,使用每位作者一个参考样本,C++分类准确率达到65%,Java达到68.7%。这些结果为将LLM应用于网络安全和软件工程中的代码作者归属开辟了新途径。
总结: 本文展示了大型语言模型在跨语言代码作者归属中的有效性,并提出了一种可扩展的方法,具有在网络安全和软件工程领域的应用潜力。
###【arXiv:2501.08165v1】
###【git】
###【期刊】
###【领域】计算机科学,人工智能,软件工程,网络安全
[推荐指数:4]
推荐理由
本文创新性地将大型语言模型应用于代码作者归属问题,并提出了适用于大规模作者的锦标赛式方法,实验结果显示出较高的实用性和鲁棒性,适合在网络安全和软件工程领域进一步应用和研究。
=====
—第36篇----
=====
FairTTTS: 针对公平性意识分类的树测试时间模拟方法
🔍 关键词: Algorithmic decision-making, fairness, bias mitigation, machine learning
链接1
摘要: 算法决策已深入许多领域,但机器学习模型中的偏见仍可能产生歧视性结果,常常伤害弱势群体。实现公平分类本质上具有挑战性,需要在预测性能和伦理考虑之间精心平衡。我们提出了FairTTTS,这是一种新颖的后处理偏见缓解方法,灵感来源于树测试时间模拟(TTTS)方法。TTTS最初旨在通过概率性决策路径调整来提高准确性和对抗对抗性输入的鲁棒性,成为FairTTTS的基础。通过构建在这一提高准确性的技术之上,FairTTTS缓解了偏见并提升了预测性能。FairTTTS使用基于距离的启发式方法在受保护属性节点上调整决策,确保对弱势样本的公平性。这种面向公平性的调整作为后处理步骤进行,允许FairTTTS应用于预训练模型、多样化数据集和各种公平性指标,无需重新训练。在七个基准数据集上的广泛评估表明,FairTTTS在公平性改进方面优于传统方法,较基线平均提升20.96%,相关工作提升18.78%,并进一步提高了0.55%的准确率。相比之下,竞争方法通常会降低0.42%的准确率。这些结果确认了FairTTTS在同时提升预测性能的同时,有效促进了更公平的决策。
总结: FairTTTS通过创新的后处理方法有效缓解了机器学习模型中的偏见,并提升了预测性能,实现了更公平的分类。
###【arXiv编号】2501.08155v1
###【git】
###【期刊】
###【领域】计算机科学 - 机器学习, 人工智能
[推荐指数:4]
推荐理由
FairTTTS在公平分类领域提出了一种创新且实用的偏见缓解方法,能够在不重新训练模型的情况下提升公平性和准确性,且在多个基准数据集上表现优异,具有较高的应用价值。
=====
—第37篇----
=====
Inductive Learning of Logical Theories with LLMs: An Expressivity-Graded Analysis
🔍 关键词: cs.CL, cs.AI, cs.LO, I.2.7
链接1
摘要: 本文提出了一种新颖的系统方法,用于分析大型语言模型(LLMs)在逻辑理论归纳方面的能力和局限性,该方法结合了形式推理引擎的反馈。该分析基于规则依赖结构的复杂度分级,允许量化特定的推理挑战对LLM性能的影响。将LLMs与形式方法相结合是自然语言处理领域一个有希望的前沿方向,是改进模型推理控制和可解释性的一个重要途径。特别是,在复杂事实和规则集上的归纳学习对当前的自回归模型提出了独特的挑战,因为它们缺乏显式的符号基础。虽然它们可以通过形式系统得到补充,但LLMs在归纳学习方面所提供的属性尚未得到充分理解和量化。实证结果表明,最大的LLMs在与最先进的归纳逻辑编程(ILP)系统基线相比时能够获得有竞争力的结果,但也表明跟踪长谓词关系链道比理论复杂性对于LLMs来说是一个更难的障碍。总结: 大型语言模型在逻辑理论归纳方面表现出竞争力,但在跟踪长谓词关系链方面面临更大挑战。
###【arXiv编号】2408.16779v2
###【git】
###【期刊】
###【领域】计算机科学,人工智能,逻辑学,信息科学理论
[推荐指数:4]
推荐理由
该研究系统性地分析了大型语言模型在逻辑理论归纳中的能力与限制,具有较高的创新性和应用潜力,特别是在提升模型推理控制和可解释性方面。
—第38篇----
=====
Multiple-Input Variational Auto-Encoder for Anomaly Detection in Heterogeneous Data
🔍 关键词: 异常检测, 变分自编码器, 异构数据, 人工智能, 机器学习
链接1
摘要: 异常检测(AD)在人工智能应用中起着关键作用,例如分类和网络安全中的入侵/威胁检测。然而,大多数现有方法面临由非独立同分布(non-IID)数据引起的特征子集之间的异质性挑战。我们提出了一种新型神经网络模型——多输入自编码器用于AD(MIAEAD)来解决这一问题。MIAEAD为数据样本的每个特征子集分配一个异常分数,以指示其成为异常的可能性,这通过使用其子编码器的重建误差作为异常分数来实现。所有子编码器随后通过无监督学习同时训练,以确定特征子集的异常分数。MIAEAD的最终AUC是为每个子数据集计算的,并选择子数据集中获得的最大AUC。为了利用生成模型中正常数据分布的建模来识别异常,我们开发了一种新型神经网络架构/模型——多输入变分自编码器(MIVAE)。MIVAE可以通过其子编码器处理特征子集,然后在潜在空间中学习正常数据的分布。这使得MIVAE能够识别偏离所学分布的异常。我们在理论上证明,提出的MIVAE获得的正常样本与异常样本之间的平均异常分数差异大于变分自编码器(VAEAD),从而导致MIVAE具有更高的AUC。对八个真实世界的异常数据集进行的广泛实验表明,MIAEAD和MIVAE在AUC得分方面比传统方法和最先进的无监督模型优越,最高提高6%。另外,基于变异系数(CV)得分,应用于异质性低的特征子集时,MIAEAD和MIVAE具有很高的AUC。
总结: 本文提出的多输入变分自编码器在处理异构数据的异常检测中表现优异,显著提升了AUC得分。
###【arXiv编号】2501.08149v1
###【git】
###【期刊】
###【领域】计算机科学,人工智能,机器学习,异常检测,网络安全
[推荐指数:4]
推荐理由
该研究在处理非独立同分布数据的异常检测方面具有创新性,通过多输入变分自编码器显著提升了检测性能,并在多个实际数据集上展现出优越的实用性。
=====
—第39篇----
=====
Refusal Behavior in Large Language Models: A Nonlinear Perspective
🔍 关键词: 大型语言模型, 拒绝行为, 非线性分析, 维度缩减, AI对齐
链接1
摘要: 大型语言模型(LLMs)的拒绝行为使其能够拒绝响应有害、不道德或不适当的提示,确保与伦理标准的一致性。本文研究了来自三个架构家族的六个LLMs中的拒绝行为。我们通过采用包括主成分分析(PCA)、t分布邻域嵌入(t-SNE)和统一多维缩放(UMAP)在内的维度缩减技术,挑战了将拒绝作为线性现象的假设。研究结果揭示,拒绝机制表现出非线性、多维的特征,并因模型架构和层级的不同而有所变化。这些发现强调了需要采用非线性解释方法以改善对齐研究,并为更安全的人工智能部署策略提供指导。
总结: 本文通过非线性维度分析揭示了大型语言模型拒绝行为的复杂特性,促进了AI对齐与安全部署研究的发展。
###【arXiv编号】2501.08145v1
###【git】
###【期刊】
###【领域】计算机科学
[推荐指数:4]
推荐理由
本文采用先进的非线性维度缩减技术,深入分析了大型语言模型中的拒绝行为,提供了新的见解,有助于提升AI系统的伦理对齐和安全性,具有较高的创新性和实用价值。
=====
—第40篇----
=====
EEG-ReMinD: Enhancing Neurodegenerative EEG Decoding through Self-Supervised State Reconstruction-Primed Riemannian Dynamics
🔍 关键词: eess.SP, cs.AI, cs.LG
链接1
摘要: 脑电图(EEG)解码算法的发展面临诸多挑战,如数据稀疏、受试者变异性以及对精确注释的需求,这些都是推动脑-计算机接口进步和改善疾病诊断的重要因素。为了解决这些问题,我们提出了一种新颖的两阶段方法,称为自监督状态重构启发黎曼动力学(EEG-ReMinD),该方法减轻了对监督学习的依赖并整合了固有的几何特征。这种方法有效地处理了EEG数据的损坏,并减少了对标签的依赖。EEG-ReMinD 利用自监督和几何学习技术,结合注意力机制,在黎曼几何框架下分析EEG特征的时间动态,称为黎曼动力学。对两种不同神经退行性疾病的完整和损坏数据集的比较分析强调了 EEG-ReMinD 的增强性能。
总结: EEG-ReMinD 提出了一种创新的自监督方法,有效提升了神经退行性疾病的EEG解码性能。
###【arXiv编号】2501.08139v1
###【git】
###【期刊】
###【领域】电子与电气工程 - 信号处理,计算机科学 - 人工智能,计算机科学 - 机器学习
[推荐指数:4]
推荐理由
EEG-ReMinD 通过结合自监督学习与黎曼几何,创新性地解决了EEG解码中的数据稀疏和标签依赖问题,具有较高的实用性和应用潜力,适用于脑-计算机接口和神经退行性疾病诊断等领域。
—第41篇----
=====
Are LLMs Good Literature Review Writers? Evaluating the Literature Review Writing Ability of Large Language Models
🔍 关键词: 文献综述, 大型语言模型, 自动化, 参考文献生成, 语义覆盖
PDF链接
摘要: 文献综述是学术写作中的关键形式,涉及复杂的文献收集、组织和总结过程。大型语言模型(LLMs)的出现为自动化这些过程引入了有前景的工具。然而,它们在撰写全面文献综述方面的实际能力仍未得到充分探索,比如它们是否能够生成准确可靠的参考文献。为了填补这一空白,我们提出了一个框架,用于自动评估LLMs的文献综述写作能力。我们在生成参考文献、撰写摘要和撰写文献综述三个任务上评估了LLMs的性能。我们采用外部工具进行多维度评估,包括评估参考文献中的虚构率、语义覆盖率以及与人类撰写内容的一致性。通过分析实验结果,我们发现,尽管有进展,即使是最先进的模型仍无法避免生成虚构的参考文献。此外,不同模型在不同学科的文献综述写作表现各异。
总结: 研究评估了大型语言模型在撰写文献综述中的能力,发现其在生成准确参考文献方面仍存在显著不足。
###【arXiv编号】2412.13612v2
###【git】无
###【期刊】无
###【领域】计算机科学,人工智能,自然语言处理
[推荐指数:3]
推荐理由
该研究系统性地评估了大型语言模型在学术写作中的应用能力,揭示了当前模型在生成可靠参考文献方面的局限性,具有一定的创新性和实用性,但在创新性方面略显不足。
=====
—第42篇----
=====
基于符号回归的气动声学预测的实证墙压谱模型
🔍 关键词: physics.flu-dyn, cs.AI, cs.LG
链接1
摘要: 快速预测机翼后缘噪声的方法对于将噪声限制纳入多种应用的设计优化循环至关重要。在这些气动声学预测模型中,阿米特理论提供了最佳的准确性与简洁性之间的平衡。该模型的准确性在很大程度上依赖于精确的墙压谱预测,这些预测通常基于带有可调参数的单方程公式。这些参数针对特定的机翼和流动条件进行了校准,因此在其校准范围之外应用时往往会失效。本文介绍了一种新的墙压谱经验模型,旨在提高当前最先进预测模型的鲁棒性和准确性,同时扩大模型在不同机翼和流动条件下的适用范围。该模型采用基于遗传算法的符号回归人工智能方法开发,并应用于在多个攻角和流入速度下测量的NACA 0008和NACA 63018机翼上的墙压波动数据集,涵盖了具有不利和有利压力梯度的湍流边界层。与实验数据(训练数据集之外)的验证表明,该模型相比于公认的半经验模型具有更高的鲁棒性。最后,该模型与阿米特理论集成,用于预测全尺寸风力涡轮机的气动声学噪声,显示出与实验测量结果的良好一致性。
总结: 本文通过符号回归和遗传算法开发了一种新的墙压谱模型,显著提升了气动声学预测的鲁棒性和准确性,并广泛适用于不同机翼和流动条件。
###【arXiv编号】: 2501.08134v1
###【git】: 无
###【期刊】: 无
###【领域】: 物理学 - 流体动力学, 计算机科学 - 人工智能, 计算机科学 - 机器学习
[推荐指数:4]
推荐理由: 该研究结合人工智能技术改进气动声学模型,具有较高的创新性和实际应用价值。
=====
—第43篇----
=====
In-situ图推理与知识扩展:Graph-PReFLexOR的应用
🔍 关键词: 图推理;知识扩展;递归语言建模;强化学习;范畴理论
链接1
摘要: 自动化科学发现的追求推动了从符号逻辑到现代人工智能的进步,开辟了推理和模式识别的新领域。变换器作为潜在系统,所有可能的关系在任务施加约束之前都保持潜在的可能性,类似于测量。然而,优化它们的采样需要的不仅是概率选择:解决方案必须符合特定的结构或规则,确保一致性并调用一般原则。我们提出了Graph-PReFLexOR(基于图的偏好递归语言建模用于推理的探索性优化),这是一个将图推理与符号抽象相结合的框架,以动态扩展领域知识。受强化学习的启发,Graph-PReFLexOR将推理定义为结构化映射,其中任务产生知识图谱、抽象模式,最终得到最终答案。受范畴理论的启发,它将概念编码为节点,将它们的关系编码为边,支持通过同构表示进行层次推理和自适应学习。演示包括假设生成、材料设计和创造性推理,例如发现神话概念如“薄处”与材料科学之间的关系。我们提出了一种“知识花园生长”策略,将跨领域的见解整合,促进跨学科的联系。一个30亿参数的Graph-PReFLexOR模型的结果显示出更优的推理深度和适应性,强调了透明的、跨学科的人工智能驱动发现的潜力。它为通用自主推理解决方案奠定了基础。
总结: Graph-PReFLexOR框架通过结合图推理与符号抽象,显著提升了跨学科领域中的自动化推理和知识扩展能力。
###【arXiv编号】2501.08120v1
###【期刊】
###【领域】计算机科学、人工智能、材料科学
[推荐指数:4]
推荐理由
Graph-PReFLexOR在结合图推理和符号抽象方面具有创新性,能够支持多领域的自动化推理和知识扩展,具有较高的实用价值和研究潜力。
—第44篇----
=====
Set-based Neural Network Encoding Without Weight Tying
🔍 关键词: 神经网络编码, 权重编码, 属性预测, 集合函数, 跨架构泛化
链接1
摘要: 我们提出了一种用于网络属性预测的神经网络权重编码方法,该方法利用集合到集合和集合到向量的函数高效地编码神经网络参数。我们的方法能够在混合架构和不同参数规模的模型库中对神经网络进行编码,这与以前需要为不同架构定制编码模型的方法不同。此外,我们的集合型神经网络编码器(SNE)考虑了神经网络的层级计算结构。为了尊重网络权重空间中固有的对称性,我们利用Logit不变性来学习所需的最小不变性属性。此外,我们引入了一种可根据计算和内存约束进行调整的“pad-chunk-encode”流水线来高效编码神经网络层。我们还为神经网络属性预测引入了两个新任务:跨数据集预测和跨架构预测。在跨数据集属性预测中,我们评估属性预测器在不同数据集但相同架构的模型库上的泛化能力。在跨架构属性预测中,我们评估属性预测器转移到未在训练中见过的不同架构的模型库的能力。我们展示了SNE在标准基准测试中优于相关基线。
总结: SNE通过集合函数高效编码多架构神经网络参数,提升了属性预测的泛化能力。
###【arXiv:2305.16625v3】
###【期刊】: 无
###【领域】计算机科学 - 机器学习, 人工智能, 神经进化计算
[推荐指数:4]
推荐理由
该研究提出了一种创新的神经网络权重编码方法,能够处理混合架构与不同参数规模的模型库,且在属性预测任务中表现优异,具有较高的创新性和实用性。
—第45篇----
Data-driven inventory management for new products: A warm-start and adjusted Dyna-Q approach
🔍 关键词: cs.LG, cs.AI, cs.CE
PDF Link
摘要: 本文提出了一种新颖的强化学习算法,用于管理新推出产品的库存,这些产品缺乏或仅有有限的历史需求信息。该算法遵循经典的Dyna-Q结构,平衡了基于模型和无模型的方法,同时加速了Dyna-Q的训练过程,并减轻了由基于模型的反馈产生的模型差异。算法中可以结合来自现有相似产品需求数据的暖启动信息,以进一步稳定早期训练并降低估计最优策略的方差。通过使用真实数据的面包店库存管理案例研究验证了我们的方法。调整后的Dyna-Q相比Q学习在平均每日成本上减少了23.7%,相比经典Dyna-Q在相同时间范围内的训练时间减少了77.5%。通过引入暖启动信息,发现调整后的Dyna-Q在所有算法中具有最低的总成本、最低的总成本方差,以及在30天测试中相对较低的缺货比例。
总结: 本文提出了一种新的强化学习算法,用于新产品库存管理,显著降低了成本和训练时间。
###【arXiv编号】2501.08109v1
###【git】
###【期刊】
###【领域】库存管理与强化学习
[推荐指数:4]
推荐理由
该算法在新产品库存管理中表现出显著的成本和效率提升,具有较高的创新性和实用性,适用于实际应用场景。
—第46篇----
=====
文章名称
🔍 关键词: 语言模型, 情感一致性, 语义连贯性, 社交媒体
PDF链接
摘要: 大型语言模型(LLMs)在文本生成方面展现出卓越的能力,但它们在社交媒体环境中的情感一致性和语义连贯性尚未得到充分理解。本研究通过使用两个开源模型:Gemma和Llama,研究LLMs如何处理情感内容并在续写和回应任务中维持语义关系。通过分析Twitter和Reddit上的气候变化讨论,我们考察了情感转变、强度模式以及人类作者与LLM生成内容之间的语义相似性。研究发现,尽管两种模型都保持了高水平的语义连贯性,但它们展现出不同的情感模式:Gemma倾向于放大负面情感,特别是愤怒,同时维持某些积极情感如乐观;Llama则在更广泛的情感范畴中表现出更优越的情感保留。两种模型在系统生成的回应中,与人类作者内容相比,其情感强度有所减弱,并表现出在回应任务中倾向于积极情感的偏向。此外,两种模型在语义相似性上都与原文保持了较强的一致性,尽管在续写和回应任务之间的表现有所不同。这些发现为LLMs在情感和语义处理能力方面提供了洞见,并对它们在社交媒体环境中的部署和人机交互设计具有启示意义。
总结: 该研究揭示了大型语言模型在社交媒体上的情感一致性和语义连贯性表现差异,为其在人机交互设计中的应用提供了重要见解。
###【arXiv编号】
###【git】
###【期刊】
###【领域】计算机科学、人工智能、人机交互
[推荐指数:4]
推荐理由
研究深入探讨了大型语言模型在情感和语义处理上的表现,对于社交媒体和人机交互设计具有重要的应用价值,创新性和实用性较高。
—第47篇----
=====
Guiding the classification of hepatocellular carcinoma on 3D CT-scans using deep and handcrafted radiological features
🔍 关键词: cs.CV, cs.AI
链接1
摘要: 肝细胞癌是全球最常见的原发性肝癌,约占肝脏肿瘤的80%。肝细胞癌诊断的黄金标准是肝活检。然而,在临床常规中,专家放射科医生通过按照标准化协议LI-RADS解释肝脏CT扫描进行视觉诊断,该协议使用五个放射学标准及其相关的决策树。在本文中,我们提出了一种自动方法,通过CT图像预测经组织学证实的肝细胞癌,以减少放射科医生之间的变异性。我们首先表明,在一个具有挑战性的数据库上,标准深度学习方法无法准确预测CT扫描中的肝细胞癌,并提出了一种受LI-RADS系统启发的两步方法以提高性能。我们相对于不同架构训练的深度学习基线,在AUC上实现了6到18点的提升。我们还对我们的方法进行临床验证,结果显示其表现优于非专家放射科医生,并与专家相当。
总结: 本文提出了一种基于受LI-RADS启发的两步深度学习方法,通过CT图像自动预测肝细胞癌,显著提升诊断准确性并与专家表现相当。
###【arXiv编号】2501.08097v1
###【git】
###【期刊】
###【领域】 医学图像分析、人工智能在医疗中的应用
[推荐指数:4]
推荐理由
该研究通过结合深度学习和手工设计的放射学特征,提出了一种创新的肝细胞癌自动分类方法,显著提高了诊断准确性,并在临床验证中表现出色,具有较高的实用价值。
—第48篇----
=====
Hybrid Action Based Reinforcement Learning for Multi-Objective Compatible Autonomous Driving
🔍 关键词: 强化学习,自动驾驶,多目标优化,混合动作
链接1
摘要: 强化学习(RL)在解决自动驾驶的决策和控制问题方面表现出色,并日益应用于多样的驾驶场景中。然而,驾驶是一项多属性问题,这给当前RL方法在策略执行和策略迭代中实现多目标兼容性带来了挑战。一方面,具有单一动作类型的常见动作空间结构限制了驾驶的灵活性,或导致策略执行期间行为波动较大。另一方面,多属性加权的单一奖励函数导致智能体在策略迭代过程中对某些目标的关注不均衡。为此,我们提出了一种具有混合参数化动作的多目标集成评论者强化学习方法,用于多目标兼容的自动驾驶。具体而言,构建了一个参数化动作空间以生成混合驾驶动作,结合了抽象指导和具体控制命令。构建了一个多目标评论者架构,考虑了多重属性奖励,以确保同时关注不同的驾驶目标。此外,引入了基于不确定性的探索策略,以帮助智能体更快地接近可行的驾驶策略。我们在模拟交通环境和HighD数据集中进行的实验结果表明,我们的方法能够在驾驶效率、动作一致性和安全性方面实现多目标兼容的自动驾驶。该方法提高了驾驶的一般性能,同时显著增加了训练效率。
总结: 我们提出了一种多目标兼容的强化学习方法,通过混合参数化动作和多目标评论者架构,实现了高效、一致且安全的自动驾驶。
###【arXiv编号】2501.08096v1
###【git】
###【期刊】
###【领域】自动驾驶,强化学习,多目标优化
[推荐指数:4]
推荐理由
该研究在多目标自动驾驶中提出了新的强化学习方法,有效提升了驾驶性能和训练效率,具有较高的创新性和实用价值。
—第49篇----
=====
Hierarchical Autoscaling for Large Language Model Serving with Chiron
🔍 关键词: 大规模语言模型, 自动弹性缩放, Chiron, 服务级别目标 (SLO), GPU效率
PDF链接
摘要: 大规模语言模型(LLM)服务正日益成为云服务提供商的重要工作负载。根据性能SLO(服务级别目标)要求,LLM推理请求可以分为(a)具有紧迫SLO、响应时间在秒级的交互式请求,以及(b)具有宽松SLO、响应时间在分钟到小时级的批处理请求。这些SLO可能因到达率、多路复用和配置参数而下降,因而需要对服务实例及其批量大小进行资源自动弹性缩放。然而,现有的LLM服务自动弹性缩放器未考虑请求的SLO,导致不必要的扩展和资源利用不足。为解决这些限制,我们引入了Chiron,这是一种利用队列大小、利用率和SLO估计的分层反压机制的自动弹性缩放器。实验结果显示,与现有解决方案相比,Chiron在SLO达成率上提高了最多90%,并将GPU效率提高了最多70%。
总结: Chiron通过分层反压机制显著提升了大规模语言模型服务的SLO达成率和GPU资源利用效率。
###【arXiv编号】2501.08090v1
###【git】无
###【期刊】无
###【领域】计算机科学,人工智能
[推荐指数:4]
推荐理由
Chiron在大规模语言模型服务中的自动弹性缩放表现出显著的性能提升,具有高度的创新性和实用性,适合进一步研究和应用。
—第50篇----
=====
Addressing Hallucinations in Language Models with Knowledge Graph Embeddings as an Additional Modality
🔍 关键词: cs.CL, cs.AI
链接1
摘要: 本文提出通过将知识图谱(KGs)作为额外模态纳入大型语言模型(LLMs)中以减少其幻觉现象。我们的方法包括将输入文本转换为一组KG嵌入,并使用适配器将这些嵌入整合到语言模型空间中,而无需依赖外部检索过程。为此,我们创建了WikiEntities,这是一个包含超过300万维基百科文本的数据集,文本中标注了来自Wikidata的实体及其来自PyTorch-BigGraph的相应嵌入。该数据集为训练实体链接模型和使用专用适配器调整描述的方法以适配各种LLM提供了有价值的资源。我们的方法不需要对语言模型本身进行微调;相反,我们只需训练适配器。这确保了模型在其他任务上的性能不受影响。我们使用该数据集为Mistral 7B、LLaMA 2-7B(聊天)和LLaMA 3-8B(指令)模型训练了适配器,并展示了我们的方法在HaluEval、True-False基准和FEVER数据集上的性能提升。结果表明,将KGs作为新模态纳入可以有效减少幻觉并提高语言模型的事实准确性,且无需外部检索。
总结: 通过整合知识图谱嵌入辅助大型语言模型,有效减少了幻觉现象并提升了事实准确性。
###【arXiv编号】
2411.11531v2
###【git】
无
###【期刊】
arXiv预印本
###【领域】
自然语言处理,人工智能
[推荐指数:4]
推荐理由
该研究创新性地结合知识图谱与大型语言模型,提供了一种无需外部检索即可降低幻觉的有效方法,具有较高的实用性和潜在应用价值。
=====
—第51篇----
=====
NOMTO: 基于神经算子的符号模型近似与发现
🔍 关键词: 神经算子, 符号模型发现, 非线性回归, 偏微分方程
PDF链接
摘要: 尽管许多物理和工程过程可以通过非线性符号模型最有效地描述,现有的非线性符号回归(SR)方法仅限于有限的连续代数函数集,从而限制了它们发现高阶非线性微分关系的适用性。在本研究中,我们引入了一种名为NOMTO的基于神经算子的符号模型近似与发现方法,这是一种利用神经算子涵盖更广泛符号操作的新型符号模型发现方法。我们证明了NOMTO能够成功识别包含奇点、特殊函数和导数的基本函数的符号表达式。此外,我们的实验表明,NOMTO能够准确地重新发现二阶非线性偏微分方程。通过拓宽可用于发现的符号操作集,NOMTO显著提升了现有SR方法的能力。它为模型发现提供了一个强大而灵活的工具,能够捕捉各种物理系统中的复杂关系。
总结: NOMTO方法通过神经算子扩展了符号回归的应用范围,有效发现复杂的非线性微分关系,提升了符号模型发现的能力。
###【arXiv编号】2501.08086v1
###【git】
###【期刊】
###【领域】计算机科学、人工智能、计算科学
[推荐指数:4]
推荐理由
NOMTO方法创新性地结合了神经算子与符号回归,显著提升了模型发现的灵活性和准确性,具有较高的应用潜力。
—第52篇----
=====
Less is More: The Influence of Pruning on the Explainability of CNNs
🔍 关键词: 无
PDF链接
摘要: 在过去的一个世纪里,深度学习模型已成为解决复杂计算机视觉问题的最先进技术。这些现代的计算机视觉模型拥有数百万个参数,带来了两个主要挑战:(1)增加的计算需求阻碍了它们在资源受限的环境中部署,如移动设备或物联网设备;(2)向人类解释这些网络的复杂决策具有挑战性。网络剪枝是一种减少模型复杂性的技术方法,通过去除不太重要的参数。本文探讨了这种技术复杂性降低是否有助于提高模型的可解释性。为此,我们进行了预研和两项基于人类的实验,评估不同剪枝比例对可解释性的影响。总体而言,我们在Mechanical Turk上评估了四种不同的压缩率(即2、4、8和32),共37,500个任务。结果表明,较低的压缩率对可解释性有正面影响,而较高的压缩率则显示出负面影响。此外,我们还确定了既能提高感知可解释性又能提升模型性能的“最佳点”。
总结: 本文研究了网络剪枝对CNN模型可解释性的影响,发现适度压缩可以提升模型的可解释性和性能。
###【arXiv:2302.08878v3】
###【git】: 无
###【期刊】: 无
###【领域】: 计算机视觉、人工智能
[推荐指数:4]
推荐理由
论文探讨了网络剪枝对CNN模型可解释性的影响,发现适度压缩可提升模型的可解释性和性能,对资源受限环境中的模型部署具有重要意义。
—第53篇----
=====
人工肝分类器:传统机器学习模型的新替代方案
🔍 关键词: 机器学习, 监督学习, 分类器, 人工肝分类器, 优化算法
链接1
摘要: 监督学习分类器常常面临性能、准确性和过拟合等挑战。本文介绍了一种新的监督学习分类器——人工肝分类器(ALC),其灵感来源于人类肝脏的解毒功能。ALC 的特点是简单、快速、无需超参数、能够减少过拟合,并通过简单的数学运算有效解决多分类问题。为了优化 ALC 的参数,本文采用了改进的 FOX 优化算法(IFOX)作为训练方法。所提出的 ALC 在五个基准机器学习数据集上进行了评估:Iris 花卉、威斯康星乳腺癌、葡萄酒、语音性别和 MNIST。结果显示,ALC 具有竞争力的性能,在 Iris 数据集上达到 100% 的准确率,超过了逻辑回归、多层感知器和支持向量机。同样,在乳腺癌数据集上,其准确率达到 99.12%,优于 XGBoost 和逻辑回归。在所有数据集中,ALC 相较于传统分类器始终表现出更低的过拟合差距和损失。这些发现突显了利用生物过程模拟开发高效机器学习模型的潜力,并为该领域的创新开辟了新途径。
总结: 人工肝分类器(ALC)通过模拟生物过程,提供了一种高效、低过拟合的新型机器学习分类器,在多个基准数据集上表现出色。
###【arXiv编号】arXiv:2501.08074v1
###【git】
###【期刊】
###【领域】计算机科学 - 人工智能
[推荐指数:4]
推荐理由: ALC 作为一种新颖的分类器,在多个数据集上展示了卓越的性能和较低的过拟合,证明了生物过程模拟在机器学习中的应用潜力。
=====
—第54篇----
=====
Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model
🔍 关键词: cs.CV, cs.AI, cs.LG
链接1
摘要: 视觉-语言基础模型由于在大规模图像-文本配对数据上的可扩展性,在多种下游任务中表现出显著的成功。然而,这些模型在应用于下游任务(如细粒度图像分类)时也表现出显著的局限性,原因在于“决策捷径”阻碍了它们的泛化能力。在本研究中,我们发现CLIP模型拥有一组丰富的特征,包括期望的不变因果特征和不期望的决策捷径。此外,CLIP在下游任务上的表现不佳源于其无法根据特定任务需求有效利用预训练特征。为了解决这个挑战,我们提出了一种简单而有效的方法——Spurious Feature Eraser(SEraser),通过消除虚假特征来减轻决策捷径的影响。具体来说,我们引入了一种测试时提示调优范式,优化一个可学习的提示,从而在推理阶段迫使模型利用不变特征,同时忽略决策捷径。所提出的方法有效减轻了对潜在误导性虚假信息的过度依赖。我们与各种方法进行了比较分析,验证了该方法的显著优越性。
总结: 本文提出通过测试时提示调优消除视觉-语言模型中的虚假特征,从而提升其在下游任务中的泛化能力。
###【arXiv编号】2403.00376v3
###【git】
###【期刊】
###【领域】计算机视觉、人工智能、机器学习
[推荐指数:4]
推荐理由
该研究针对视觉-语言基础模型在下游任务中的泛化问题,提出了创新且有效的解决方案,具有较高的实用性和应用潜力。
—第55篇----
=====
文章名称
🔍 关键词: 大型语言模型,分层规划,自动化规划,人工智能
PDF链接
摘要: 最近大型语言模型(LLMs)的进展正在推动其在多个与推理相关的领域中的整合,包括自动化规划(AP)。然而,它们在利用层级知识来增强规划性能的自动化规划子领域——分层规划(HP)中的整合仍然大部分尚未探索。在这项初步工作中,我们提出了一份路线图以解决这一差距,并利用LLMs在HP中的潜力。为此,我们提出了一种整合方法的分类法,探索了LLMs如何在HP的生命周期中被利用。此外,我们提供了一个标准化的数据集作为基准,用于评估未来基于LLMs的HP方法的性能,并展示了一个最先进的HP规划器和LLM规划器的初步结果。正如预期的那样,后者显示出有限的性能(3%正确的计划,且没有正确的层级分解),但作为未来方法的有价值基线具有重要意义。
总结: 本文提出了将大型语言模型整合到分层规划中的路线图和基准测试,尽管初步结果有限,但为未来研究奠定了基础。
###【arXiv编号】2501.08068v1
###【git】
###【期刊】
###【领域】人工智能,自动化规划,分层规划
[推荐指数:4]
推荐理由
该研究填补了大型语言模型与分层规划整合的研究空白,提供了系统的分类法和基准测试,有助于推动该领域的发展,尽管初步性能有限,但具有较高的创新性和实用性。
—第56篇----
=====
Optimizing Speech Multi-View Feature Fusion through Conditional Computation
🔍 关键词: eess.AS, cs.AI, cs.CL, cs.SD
链接1
摘要: 最近的进展突显了自监督学习(SSL)特征在各种语音相关任务中的有效性,提供了轻量级且多功能的多视角语音表示。然而,我们的研究表明,虽然SSL特征加快了模型的收敛速度,但它们在更新方向上与传统的谱特征如FBanks存在冲突。对此,我们提出了一种新颖的基于条件计算的通用特征融合框架,包含一个对梯度敏感的门控网络和多阶段的Dropout策略。该框架缓解了特征冲突,并增强了模型对多视角输入特征的鲁棒性。通过整合SSL和谱特征,我们的方法加快了收敛速度,并在MUSTC数据集的多项语音翻译任务中保持了与谱模型相当的性能。总结: 通过基于条件计算的特征融合框架,本文整合了自监督学习特征与传统谱特征,加速模型收敛并在语音翻译任务中保持了高性能。
###【arXiv编号】2501.08057v1
###【领域】计算机科学 - 人工智能,语音处理
[推荐指数:4]
推荐理由
提出了一种新颖的条件计算特征融合框架,成功整合自监督学习特征与传统谱特征,提高了语音翻译模型的收敛速度和性能。
=====
—第57篇----
=====
Exploring Narrative Clustering in Large Language Models: A Layerwise Analysis of BERT
🔍 关键词: cs.CL, cs.AI
链接1
摘要: 本研究调查了基于Transformer的大型语言模型BERT的内部机制,重点分析其在不同层次上对叙事内容和作者风格的聚类能力。使用由GPT-4开发的包含多样语义内容和风格变异的叙事数据集,分析了BERT在各层次上的激活,揭示了局部化的神经处理模式。通过主成分分析(PCA)和多维尺度分析(MDS)等降维技术,发现BERT在后期层次基于叙事内容展示出强烈的聚类能力,聚类逐渐更加紧凑和区分明显。虽然在叙事内容被重新表达到不同文本类型(例如寓言、科幻、儿童故事)时可能会出现强烈的风格聚类,但对于个别作家的作者风格,仅观察到最小的聚类。这些发现强调了BERT在处理语义内容时优先于风格特征,为其表征能力和处理层次提供了见解。本研究有助于理解Transformer模型如BERT如何编码语言信息,为人工智能和认知神经科学领域的未来跨学科研究铺平了道路。
总结: 本研究揭示了BERT在后期层次对叙事内容的有效聚类能力,优先处理语义内容而非风格特征。
###【arXiv编号】: arXiv:2501.08053v1
###【git】: -
###【期刊】: -
###【领域】: 人工智能, 认知神经科学
[推荐指数:3]
推荐理由
该研究通过层级分析深入探讨了BERT在叙事内容聚类方面的表现,虽然方法扎实且结果有助于理解模型内部机制,但在创新性方面相对有限,因此推荐指数为3分。
=====
—第58篇----
=====
Self-Attentive Spatio-Temporal Calibration for Precise Intermediate Layer Matching in ANN-to-SNN Distillation
🔍 关键词: cs.AI, cs.CV, cs.LG
PDF链接
摘要: 脉冲神经网络(SNNs)由于其事件驱动机制在低功耗计算方面具有前景,但通常相较于人工神经网络(ANNs)的准确率较低。ANN到SNN的知识蒸馏可以提高SNN性能,但之前的方法要么仅关注标签信息,忽略了有价值的中间层特征,要么采用逐层的方法,忽视了空间和时间语义不一致性,导致性能下降。为了克服这些限制,我们提出了一种新颖的方法,称为自注意力时空校准(SASTC)。SASTC利用自注意力机制在ANN和SNN之间空间和时间上识别语义对齐的层对,从而实现相关语义信息的自主转移。大量实验证明,SASTC优于现有方法,有效解决了不匹配问题。卓越的准确率结果包括CIFAR-10上95.12%,CIFAR-100上2个时间步时79.40%,ImageNet上4个时间步时68.69%,以及神经形态数据集DVS-Gesture上97.92%和DVS-CIFAR10上83.60%。这是首次SNN在CIFAR-10和CIFAR-100上超过ANN,开辟了SNN潜在应用的新方向。
总结: 本文提出的自注意力时空校准方法显著提升了脉冲神经网络在知识蒸馏中的性能,并在多个数据集上实现了超过传统人工神经网络的准确率。
###【arXiv编号: 2501.08049v1】
###【git】无
###【期刊】无
###【领域】计算机科学,人工智能,计算机视觉,机器学习
[推荐指数:4]
推荐理由
该研究提出的SASTC方法创新性强,有效解决了ANN到SNN知识蒸馏中的关键挑战,实验结果表明其在多个重要数据集上表现优异,具有较高的实用价值。
=====
—第59篇----
=====
Building Symbiotic AI: Reviewing the AI Act for a Human-Centred, Principle-Based Framework
🔍 关键词: 人工智能, AI法规, 人本AI, 共生AI, 系统性文献综述
链接1
摘要: 人工智能(AI)迅速传播,新技术和服务接管现代社会。为了避免对人类产生不道德和潜在危险的后果,严格规范AI的设计、开发和使用是必要的。欧盟(EU)发布了新的法律框架—AI法案,通过采取基于风险的方法来规范AI,以保护人类在互动过程中的安全。与此同时,研究人员提出了对AI系统的新视角,通常称为人本AI(HCAI),强调在设计中需要以人为中心的方法。在此背景下,共生AI(HCAI的一个子类型)承诺通过人类智能与AI之间更深入和持续的协作来增强人类能力。本文呈现了系统文献综述(SLR)的结果,旨在识别在设计和开发共生AI系统时必须应用的原则,同时将人类置于过程的核心。通过内容分析,综述中出现了四个原则,这些原则必须应用于创建能够与人类建立共生关系的人本AI系统。此外,定义了当前趋势和挑战,以指明可能指导未来研究的发展方向,以开发符合AI法案的共生AI系统。
总结: 本文通过系统性文献综述,提出了构建符合欧盟AI法案的人本共生AI系统的四项关键原则,并探讨了相关的趋势与挑战。
###【arXiv:2501.08046v1】
###【期刊】
###【领域】计算机科学 - 人机交互, 人工智能
[推荐指数:4]
推荐理由
本文系统性地分析了AI法规与人本AI的结合,为未来共生AI系统的设计提供了有价值的指导,具有较高的创新性和实用性。
—第60篇----
=====
Exploring visual language models as a powerful tool in the diagnosis of Ewing Sarcoma
🔍 关键词: 视觉语言模型, 诊断, Ewing肉瘤, 计算机视觉, 人工智能
PDF链接
摘要: Ewing肉瘤(ES)以高度密集的无结构小圆蓝细胞为特征,特别在10至19岁的青少年中构成重大健康问题。基于人工智能的系统用于自动分析组织病理图像有望提高ES的准确诊断。在此背景下,本研究首次探索了不同预训练策略在数字化组织微阵列中区分ES与其他形态相似的软组织或骨肉瘤的特征提取能力。将视觉语言监督(VLS)与完全监督的ImageNet预训练在多实例学习范式下进行了比较。研究结果表明,使用领域内数据集的VLS适配显著提高了诊断准确性。值得注意的是,这些模型不仅提高了预测类别的准确性,还大幅减少了可训练参数和计算成本。
总结: 视觉语言模型在Ewing肉瘤诊断中显著提升了准确性并降低了计算成本。
###【arXiv编号】2501.08042v1
###【领域】计算机视觉, 人工智能
[推荐指数:4]
推荐理由
该研究首次将视觉语言监督应用于Ewing肉瘤诊断,显著提升了诊断准确性并减少了计算资源的消耗,具有较高的创新性和实用价值。
—第61篇----
=====
READ: 基于强化对抗学习的文本分类研究 —— 有限标注数据情境下
🔍 关键词: 文本分类, 强化学习, 对抗学习, 半监督学习, 数据增强
PDF链接
摘要: 预训练的变换器模型如BERT在许多文本分类任务中表现出巨大提升。然而,这些模型通常需要大量的标注数据以达到令人印象深刻的性能。获得标注数据往往昂贵且耗时,而使用一些启发式方法收集未标注数据相对更为便宜。因此,本文提出了一种方法,创新性地将基于强化学习的文本生成与半监督对抗学习方法相结合,以提高模型性能。我们的方法READ(基于强化的对抗学习)利用未标注的数据集通过强化学习生成多样化的合成文本,并通过对抗学习提升模型的泛化能力。实验结果表明,READ在多个数据集上优于现有的最先进方法。
总结: READ通过融合强化学习和对抗学习,利用未标注数据显著提升了文本分类模型的性能。
###【arXiv:2501.08035v1】
###【git】
###【期刊】
###【领域】计算机科学 - 计算语言学、人工智能
[推荐指数:4]
推荐理由
READ方法在结合强化学习和对抗学习方面具有创新性,能够在有限标注数据条件下显著提升文本分类模型的性能,具有较高的实用价值和应用潜力。
—第62篇----
=====
文章名称
TrIM, Triangular Input Movement Systolic Array for Convolutional Neural Networks: Architecture and Hardware Implementation
🔍 关键词: 卷积神经网络, 脉动阵列, 硬件架构, 能效, 数据流
PDF链接
摘要: 现代用于卷积神经网络(CNNs)的硬件架构,除了追求高性能外,还旨在降低能耗。减少计算核心与内存之间的数据移动成本是减轻能耗的一种方法。脉动阵列(Systolic Arrays)是实现这一目标的适合架构:它们使用多个处理单元相互通信,以最大化数据利用率,基于如权重稳定(weight stationary)和行稳定(row stationary)等适当的数据流。受此启发,我们提出了TrIM,一种基于输入三角运动的创新性数据流,并且与最先进的脉动阵列相比,能够将内存访问次数减少一个数量级。本文介绍了基于TrIM的CNNs硬件架构。作为展示,该加速器被实现到一个现场可编程门阵列(FPGA)上,以执行VGG-16和AlexNet CNNs。该架构实现了453.6吉操作每秒的峰值吞吐量,在内存访问方面比最先进的行稳定脉动阵列快约3倍,并且比其他FPGA加速器节能高达约11.9倍。
总结: 该研究提出了TrIM脉动阵列,通过创新的数据流显著提高了CNN硬件架构的能效和性能。
【arXiv编号】
2408.10243v2
【git】
无
【期刊】
未发布
【领域】
计算机科学,人工智能,神经网络
[推荐指数:4]
推荐理由
该文章在脉动阵列的数据流创新方面具有较高的创新性和实用性,显著提升了CNN硬件加速器的性能和能效表现,适合相关领域的研究人员参考。
—第63篇----
=====
Cooperative Patrol Routing: Optimizing Urban Crime Surveillance through Multi-Agent Reinforcement Learning
🔍 关键词: 计算机科学,人工智能,强化学习,多智能体系统,城市犯罪监控
链接1
摘要: 有效设计巡逻策略是一个困难且复杂的问题,尤其是在中大型区域中。目标是在给定区域内为一组巡逻队规划协同的最优路线,以实现区域的最大覆盖,同时尽可能减少巡逻队的数量。本文提出了一个基于分散部分可观测马尔可夫决策过程的多智能体强化学习(MARL)模型,以规划城市环境中不可预测的巡逻路线,该环境表示为一个无向图。该模型试图在给定时间框架内最大化描述环境的目标函数。我们的模型已在马拉加市的三个中等规模区测试,以优化警察巡逻路线,旨在基于该市的实际犯罪数据最大化对高犯罪率区域的监控覆盖。为了解决这一问题,研究了多种MARL算法,其中价值分解近端策略优化(VDPPO)算法表现最佳。我们还引入了一种新颖的指标——覆盖指数,用于评估模型生成路线的覆盖性能。该指标受到犯罪学中常用的预测准确率指数(PAI)的启发。利用这一指标,我们在多种场景下评估了模型,这些场景中代理人数(或巡逻队)、它们的起始位置以及它们在环境中可以观察到的信息水平有所变化。结果显示,由我们模型生成的协调路线实现了对高犯罪率的3%图节点的90%以上的覆盖,以及对20%图节点的65%的覆盖;3%和20%代表警力资源分配的覆盖标准。
总结: 提出了基于多智能体强化学习的城市巡逻路线优化模型,显著提升了高犯罪率区域的监控覆盖效果。
###【arXiv编号】2501.08020
###【git】
###【期刊】
###【领域】人工智能,城市犯罪监控
[推荐指数:4]
推荐理由
该研究应用多智能体强化学习优化城市巡逻路线,结合实际犯罪数据,创新性强且实用性高,有助于提升城市安全管理水平。
—第64篇----
=====
An AI-driven framework for rapid and localized optimizations of urban open spaces
🔍 关键词: cs.LG, cs.AI, cs.CY
PDF链接
摘要: 随着城市化的加速,开放空间在提升可持续性和福祉方面的作用日益受到认可,但与建筑空间相比,它们仍然未被充分探索。本研究引入了一个由人工智能驱动的框架,整合了机器学习模型(MLMs)和可解释AI技术,以优化天空视角因子(SVF)和可视性,这些是影响城市空间热舒适度和感知安全性的关键空间指标。不同于全球优化方法,这些方法计算密集且不适用于局部调整,该框架支持以较低的计算成本和更大的灵活性进行增量设计改进。该框架采用SHapley自适应解释(SHAP)分析特征重要性,并利用反事实解释(CFXs)提出最小设计变更。仿真测试了五种MLMs,确定XGBoost为最准确的模型,建筑宽度、公园面积以及周围建筑物的高度对SVF的影响最为关键,南侧建筑的距离对可视性至关重要。与遗传算法相比,遗传算法在3/4代中收敛大约需要15/30分钟,而测试的CFX方法在1分钟内实现了优化结果,RMSE误差为5%,显示出显著更快的性能和适用于可扩展的改造策略。该可解释且计算高效的框架促进了城市性能优化,提供了数据驱动的洞察和实用的改造解决方案,以提升不同城市环境中的可用性和环境质量。
总结: 本文提出了一个高效且可解释的AI框架,用于快速优化城市开放空间的关键指标,从而提升城市环境质量。
###【arXiv编号】2501.08019v1
###【git】
###【期刊】
###【领域】计算机科学、人工智能、城市规划
[推荐指数:5]
推荐理由
该研究创新性地结合机器学习和可解释AI技术,提供了高效实用的城市开放空间优化解决方案,具有显著的应用潜力。
—第65篇----
=====
MiniRAG: Towards Extremely Simple Retrieval-Augmented Generation
🔍 关键词: 检索增强生成, RAG, 小型语言模型, SLM, 语义感知, 异构图索引, 轻量级检索
链接1
摘要: 对于高效且轻量级的检索增强生成(RAG)系统的日益需求,使得在现有的RAG框架中部署小型语言模型(SLMs)面临重大挑战。当前的方法由于SLMs有限的语义理解和文本处理能力,导致性能严重下降,成为在资源受限场景中广泛采用的障碍。为了解决这些根本性的限制,我们提出了MiniRAG,这是一种旨在实现极致简单和高效的新型RAG系统。MiniRAG引入了两项关键技术创新:(1)一种语义感知的异构图索引机制,将文本片段和命名实体结合在一个统一的结构中,减少对复杂语义理解的依赖;(2)一种轻量级的拓扑增强检索方法,利用图结构进行高效的知识发现,而无需高级语言能力。我们的广泛实验表明,即使使用SLMs,MiniRAG在性能上与基于大型语言模型(LLM)的方法相当,同时仅需要25%的存储空间。此外,我们贡献了一个全面的基准数据集,用于评估在具有复杂查询的现实设备上的轻量级RAG系统。我们在:https://github.com/HKUDS/MiniRAG 上完全开源了我们的实现和数据集。
总结: MiniRAG通过创新的索引和检索方法,实现了在保持性能的同时大幅减少存储需求的轻量级检索增强生成系统。
###【arXiv编号】2501.06713v2
###【git】https://github.com/HKUDS/MiniRAG
###【期刊】暂无
###【领域】计算机科学,人工智能
[推荐指数:4]
推荐理由
MiniRAG在轻量级RAG系统的设计中具有显著的创新性和实用性,能够在资源受限的环境下实现与大型语言模型相当的性能,并且开源资源丰富,适合进一步研究与应用。
—第66篇----
=====
Tutorial: VAE as an inference paradigm for neuroimaging
🔍 关键词: eess.IV, cs.AI
PDF链接
摘要: 在本教程中,我们探索了变分自编码器(VAEs),这是一种无监督学习的重要框架,特别适用于高维数据集如神经影像学。通过将深度学习与贝叶斯推断相结合,VAEs能够生成可解释的潜在表示。本教程概述了VAEs的理论基础,解决了收敛问题和过拟合等实际挑战,并讨论了重新参数化技巧和超参数优化等策略。我们还强调了VAEs在神经影像学中的关键应用,展示了它们揭示有意义模式(包括与神经退行性过程相关的模式)的潜力,以及它们在分析复杂脑部数据方面的更广泛意义。
总结: 本教程详细介绍了变分自编码器在神经影像学中的理论基础、实际挑战及其应用潜力。
###【arXiv编号】2501.08009v1
###【git】
###【期刊】
###【领域】计算机科学、电子工程
[推荐指数:4]
推荐理由
该教程系统性地结合深度学习与贝叶斯推断,深入探讨VAEs在神经影像学中的应用,具有较高的学术价值和实用性。
—第67篇----
=====
Transformers and Large Language Models for Efficient Intrusion Detection Systems: A Comprehensive Survey
🔍 关键词: cs.CR, cs.AI, cs.CL, cs.CV, eess.AS
PDF链接
摘要: 随着Transformers大型语言模型的显著进展,自然语言处理已拓展到许多研究领域,得益于其在文本生成和用户交互方面的增强能力。网络安全是这些进展受益很大的一个领域。在网络安全中,许多需要保护和交换的参数以文本和表格数据的形式存在,使得自然语言处理成为增强通信协议安全措施的有价值工具。本综述论文全面分析了Transformers和大型语言模型在网络威胁检测系统中的应用。本文概述了论文选择的方法论和文献计量分析,建立了评估现有研究的严格框架。讨论了Transformers的基本原理,包括各种网络攻击和该领域常用的数据集的背景信息。调查探讨了Transformers在入侵检测系统中的应用,重点关注不同的架构,如基于注意力的模型、BERT和GPT等大型语言模型、CNN/LSTM-Transformer混合模型、新兴方法如ViTs等。此外,还探讨了基于Transformers和大型语言模型的入侵检测系统在计算机网络、物联网设备、关键基础设施保护、云计算、软件定义网络以及自动驾驶车辆等多样的环境和应用中的实施。论文还讨论了该领域的研究挑战和未来方向,确定了可解释性、可扩展性和适应不断演化的威胁等关键问题。最后,结论部分总结了研究成果,并强调Transformers和大型语言模型在增强网络威胁检测能力方面的重要性,同时概述了进一步研究和发展的潜在途径。
总结: 本文综述了Transformers和大型语言模型在多个环境下提升入侵检测系统效率的应用及未来研究方向。
###【arXiv编号】2408.07583v2
###【git】
###【期刊】
###【领域】计算机科学,网络安全,人工智能,自然语言处理,计算机视觉
[推荐指数:3]
推荐理由
该综述全面分析了Transformers和大型语言模型在入侵检测系统中的应用,具有较高的实用价值,但作为综述型文章其创新性有限。
—第68篇----
=====
TriAdaptLoRA: Brain-Inspired Triangular Adaptive Low-Rank Adaptation for Parameter-Efficient Fine-Tuning
🔍 关键词: 大型语言模型,微调,参数高效微调,低秩适应,三角形自适应,受神经科学启发
链接1
摘要: 大型语言模型(LLMs)的微调对于在各种下游任务中实现最佳性能至关重要。然而,虽然全面微调能够提供更优的结果,但它需要显著的计算和资源成本。参数高效微调(PEFT)方法,如LoRA,通过减少可训练参数的数量来应对这些挑战,但它们在秩调整效率和任务特定适应性方面常常存在困难。我们提出了三角形自适应低秩适应(TriAdaptLoRA),这是一种受神经科学原理启发的新型PEFT框架,能够动态优化可训练参数的分配。TriAdaptLoRA引入了三个关键创新:1)将变换矩阵三角分割为下三角和上三角组成部分,以最大化参数利用率;2)基于归一化弗罗贝尼乌斯范数的参数重要性度量,用于高效适应;3)由动态阈值控制的自适应秩增长策略,允许在训练过程中灵活分配参数。在多种自然语言理解和生成任务上进行的实验表明,TriAdaptLoRA在现有PEFT方法中持续表现出色。它实现了更优的性能、增强的稳定性和减少的计算开销,特别是在线性阈值驱动的秩增长下。这些结果凸显了它作为微调LLMs的可扩展和资源高效解决方案的有效性。
总结: TriAdaptLoRA 提出了一种受神经科学启发的参数高效微调框架,通过三角分割、参数重要性评估和自适应秩增长策略,显著提升了大型语言模型的性能和资源利用效率。
###【arXiv编号】2501.08008v1
###【git】无
###【期刊】无
###【领域】计算机科学、人工智能、自然语言处理
[推荐指数:5]
推荐理由
TriAdaptLoRA 提出了一种创新的参数高效微调方法,通过三角分割和自适应秩增长策略,提高了大型语言模型的性能和资源利用效率,实验结果表明其优于现有方法。
—第69篇----
=====
DisCoPatch: Batch Statistics Are All You Need For OOD Detection, But Only If You Can Trust Them
🔍 关键词: cs.CV, cs.AI, eess.IV
链接1
摘要: 异常检测(OOD)在许多应用中具有重要意义。虽然语义和域迁移的OOD问题已得到充分研究,本研究着重于协变量迁移——数据分布中的细微变化可能会降低机器学习性能。我们假设,检测这些微妙的迁移可以提高我们对分布内边界的理解,从而最终改善OOD检测。在使用批标准化(BN)训练的对抗判别器中,真实样本和对抗样本形成了具有独特批统计的不同域——我们利用这一特性进行OOD检测。我们引入了DisCoPatch,这是一种无监督的对抗变分自编码器(VAE)框架,利用了这一机制。在推理过程中,批包含来自同一图像的补丁,确保了一致的数据分布,使模型能够依赖批统计。DisCoPatch使用VAE的次优输出(生成和重建)作为负样本来训练判别器,从而提高其划定分布内样本和协变量迁移之间边界的能力。通过收紧这一边界,DisCoPatch在公共OOD检测基准上达到了最先进的结果。所提出的模型不仅在检测协变量迁移方面表现出色,在ImageNet-1K(-C)上达到95.5%的AUROC,还在公共Near-OOD基准上超过了所有先前方法(95.0%)。其紧凑的模型大小为25MB,在现有方法的显著更低的延迟下实现了高OOD检测性能,使其成为实际OOD检测应用的高效实用解决方案。代码将公开发布。
总结: DisCoPatch通过利用批统计显著提升了OOD检测性能,且具备高效和实用的优势。
###【arXiv编号】
arXiv:2501.08005v1
###【git】
暂无
###【期刊】
暂无
###【领域】
计算机视觉,人工智能,图像与视频处理
[推荐指数:4]
推荐理由
DisCoPatch在OOD检测领域取得了最先进的结果,具备高创新性和实用性,适合实际应用场景。
—第70篇----
=====
Maximizing Uncertainty for Federated learning via Bayesian Optimisation-based Model Poisoning
🔍 关键词: 联邦学习,模型投毒,贝叶斯优化,不确定性量化
链接1
摘要: 随着我们从狭隘的人工智能过渡到人工超级智能,用户对他们的隐私和机器学习(ML)技术的可信度越来越关注。可信度指标的一个共同点是对深度学习(DL)算法固有不确定性的量化,尤其是在模型参数、输入数据和模型预测方面。解决DL中与隐私相关问题的常用方法之一是采用分布式学习,如联邦学习(FL),其中用户之间不共享私有原始数据。尽管FL具有隐私保护机制,但其可信度仍面临挑战。具体而言,恶意用户在训练过程中可以系统地创建恶意模型参数,以破坏模型的预测和生成能力,导致对其可靠性产生高不确定性。为了展示恶意行为,我们提出了一种名为Delphi的新型模型投毒攻击方法,旨在最大化全局模型输出的不确定性。我们通过利用不确定性与本地模型第一个隐藏层模型参数之间的关系来实现这一目标。Delphi采用两种优化方法,即贝叶斯优化和最小二乘信赖域,来搜索最佳的被污染模型参数,分别称为Delphi-BO和Delphi-LSTR。我们使用KL散度来量化不确定性,旨在最小化预测概率分布与模型输出的不确定分布之间的距离。此外,我们建立了FL中攻击效果的数学证明。数值结果表明,Delphi-BO比Delphi-LSTR诱导了更高的不确定性,突显了FL系统对模型投毒攻击的脆弱性。
总结: Delphi 方法通过贝叶斯优化和最小二乘信赖域,最大化联邦学习全局模型的不确定性,展示了FL系统对模型投毒攻击的脆弱性。
###【arXiv编号】2501.08002v1
###【git】无
###【期刊】无
###【领域】计算机科学,机器学习,人工智能,计算机视觉
[推荐指数:4]
推荐理由
本文提出了一种新颖的模型投毒攻击方法Delphi,利用贝叶斯优化和最小二乘信赖域优化策略,有效地增加了联邦学习模型的不确定性,突出了FL系统在面对模型投毒攻击时的安全脆弱性,对于提升FL系统的安全性和可信度具有重要参考价值。
—第71篇----
=====
文章名称
GDiffRetro: Retrosynthesis Prediction with Dual Graph Enhanced Molecular Representation and Diffusion Generation
🔍 关键词: 逆合成预测,分子表示,扩散生成,双图模型
链接1
摘要: 逆合成预测旨在识别能够合成目标产物的反应物。通常,逆合成预测包括两个阶段:反应中心识别和反应物生成。然而,我们认为大多数现有方法在这两个阶段存在两个限制:(i)现有模型未能充分捕捉分子图中的“面”信息用于反应中心识别;(ii)当前的反应物生成方法主要在二维空间中使用序列生成,缺乏生成完整反应基团合理分布的多样性,并忽视了分子固有的三维属性。为克服上述限制,我们提出了GDiffRetro。在反应中心识别方面,GDiffRetro独特地将原始图与其对应的双图集成以表示分子结构,这有助于引导模型更多地关注图中的面。在反应物生成方面,GDiffRetro采用基于三维条件扩散模型进一步将获得的合成片段转化为完整的反应物。我们的实验结果表明,GDiffRetro在各种评估指标上均优于最先进的半模板模型。
总结: GDiffRetro通过双图增强的分子表示和三维扩散生成模型,显著提升了逆合成预测的准确性和多样性。
###【arXiv编号】2501.08001v1
###【git】无
###【期刊】无
###【领域】计算机科学 - 人工智能
[推荐指数:4]
推荐理由
该研究引入双图增强分子表示和三维扩散生成技术,克服了现有逆合成预测方法的局限性,展示出较高的创新性和实用性,显著提升了预测性能。
=====
—第72篇----
=====
适用于临时可扩展系统的LLM增强全息架构
🔍 关键词: LLM, 全息架构, 系统集成, 智能制造, 智慧城市交通
链接1
摘要: 随着现代系统集成(SoS)变得日益自适应和以人为中心,传统架构常常难以支持互操作性、可重构性和有效的人机系统交互。本文通过推进SoS全息架构的现有技术,以应对这些挑战,提出了两个主要贡献以支持这些自适应需求。首先,我们提出了一种用于全息体的分层架构,包括推理层、通信层和能力层。这一设计通过改善数据交换和集成,促进了异构组成系统之间的无缝互操作性。其次,受智能制造原则的启发,我们引入了专门的全息体,即监督者、规划者、任务和资源全息体,旨在增强SoS的适应性和可重构性。这些专门的全息体利用大语言模型在其推理层中支持决策制定,并确保实时适应性。我们通过一个专注于智慧城市交通的3D移动性案例研究展示了我们的方法,展示了其在管理复杂、多模式SoS环境方面的潜力。此外,我们提出了评估方法来评估架构的效率和可扩展性,为通过仿真和现实世界的实施进行未来的实证验证奠定了基础。
总结: 本文提出了一种结合大语言模型的全息架构,以增强系统集成的互操作性和适应性,应用于智慧城市交通领域。
###【arXiv编号】arXiv:2501.07992v1
###【git】
###【期刊】
###【领域】智慧城市交通
[推荐指数:4]
推荐理由
本文在全息架构中引入大语言模型,提升了系统的互操作性和实时适应性,具有较高的创新性和实用性,适用于智慧城市交通的复杂系统管理。
—第73篇----
=====
Training Hybrid Neural Networks with Multimode Optical Nonlinearities Using Digital Twins
🔍 关键词: physics.optics, cs.AI
链接1
摘要: 训练越来越大的神经网络的能力使得人工智能成为科学和技术发现的前沿。然而,其指数级增加的规模导致了相应更高的能源和计算硬件需求。将复杂的物理事件作为固定、高效的计算模块纳入网络,可以通过减少可训练层的复杂性来应对这一需求。在此,我们利用多模光纤中的超短脉冲传播,这些光纤执行大规模的非线性变换,来实现这一目的。混合架构的训练通过一个可微近似光学系统的神经模型实现。训练算法更新神经模拟器,并通过这个代理反向传播误差信号,以优化光学层前的层。我们的实验结果达到了最先进的图像分类准确率和模拟保真度。此外,该框架对实验漂移表现出卓越的弹性。通过将低能耗物理系统集成到神经网络中,这种方法实现了可扩展、能效高的AI模型,并显著降低了计算需求。总结: 该研究通过结合多模光纤的非线性变换与神经网络训练,实现了高效、可扩展的AI模型,展示了在降低计算需求和能耗方面的显著潜力。
###【arXiv:2501.07991v1】
###【git】
###【期刊】
###【领域】计算机科学 - 人工智能
[推荐指数:4]
推荐理由
该研究通过将低能耗的物理系统与神经网络结合,展示了在提升AI模型可扩展性和能效方面的创新方法,具有高度的实用价值。
—第74篇----
=====
GenSafe: 基于降阶马尔可夫决策过程模型的通用安全增强器,用于安全强化学习算法
🔍 关键词: 安全强化学习,马尔可夫决策过程,降阶模型,深度强化学习,安全约束
PDF链接
摘要: 安全强化学习(SRL)旨在通过整合安全约束,实现深度强化学习(DRL)算法的安全学习过程。然而,SRL方法的效果通常依赖于精确的函数逼近,由于数据不足,尤其在早期学习阶段很难实现。为了解决这一问题,本文介绍了一种新颖的通用安全增强器(GenSafe),能够克服数据不足的挑战并提升SRL方法的性能。利用模型阶数减少技术,我们首先提出了一种创新方法,构建降阶马尔可夫决策过程(ROMDP)作为原始安全约束的低维近似器。然后,通过求解基于ROMDP的重构约束,GenSafe优化代理的动作,增加约束满足的可能性。本质上,GenSafe充当SRL算法的额外安全层。我们在多种SRL方法和基准问题上评估了GenSafe。结果表明,它能够提高安全性能,特别是在早期学习阶段,同时保持令人满意的任务性能。我们提出的GenSafe不仅为增强现有的SRL方法提供了新颖的措施,而且显示出与各种SRL算法的广泛兼容性,使其适用于广泛的系统和SRL问题。
总结: GenSafe通过降阶马尔可夫决策过程模型增强安全强化学习算法,在数据不足的早期阶段显著提升了安全性能。
###【arXiv编号】2406.03912v2
###【git】
###【期刊】
###【领域】计算机科学 - 人工智能,机器学习,机器人学,系统与控制,电子工程与系统
[推荐指数:4]
推荐理由
GenSafe作为一个通用的安全增强工具,通过创新性的降阶马尔可夫决策过程模型,为安全强化学习提供了有效的解决方案,尤其在数据不足的早期学习阶段展现出强大的性能提升和广泛的兼容性,具有较高的创新性和实用性。
=====
—第75篇----
Enhanced Masked Image Modeling to Avoid Model Collapse on Multi-modal MRI Datasets
🔍 关键词: 多模态磁共振成像, 自监督学习, 掩码图像建模, 模型崩溃, 分割, 分类
PDF链接
代码链接
摘要: 多模态磁共振成像(MRI)为计算机辅助诊断提供了不同视角的病变信息。深度学习算法适用于识别特定解剖结构、分割病变和分类疾病。由于高昂的费用,手动标注有限,阻碍了准确性的进一步提升。自监督学习,特别是掩码图像建模(MIM),在利用未标注数据方面表现出潜力。然而,我们在将MIM应用于多模态MRI数据集时发现了模型崩溃。下游任务的性能在模型崩溃后没有任何提升。为了解决模型崩溃,我们从两方面进行了分析并加以解决:完全崩溃和维度崩溃。我们发现,完全崩溃是因为多模态MRI数据集中的崩溃损失值低于正常收敛的损失值。基于此,引入了混合掩码模式(HMP)掩码策略,以提高崩溃损失高于正常收敛损失值,避免完全崩溃。此外,我们发现维度崩溃源于MIM中的特征一致性不足。我们通过引入金字塔巴洛夫双子(PBT)模块作为显式正则化方法来缓解维度崩溃。总体而言,我们构建了带有HMP和PBT模块的增强MIM(E-MIM),以避免多模态MRI的模型崩溃。在三个多模态MRI数据集上进行了实验,验证了我们方法在防止两种类型模型崩溃方面的有效性。通过防止模型崩溃,模型的训练变得更加稳定,导致分割和分类任务的性能有了显著提升。代码可在GitHub获取。
总结: 该研究通过引入混合掩码模式和金字塔巴洛夫双子模块,成功增强了掩码图像建模方法,防止了多模态MRI数据集上的模型崩溃,从而提升了分割和分类任务的性能。
###【arXiv:2407.10377v3】
###【git】: https://github.com/LinxuanHan/E-MIM
###【期刊】: 无
###【领域】: 计算机视觉,人工智能,医学影像
[推荐指数:4]
推荐理由
该文章在自监督学习和多模态医学影像处理领域具有较高的创新性,通过有效解决模型崩溃问题,提升了深度学习算法在医学图像分割和分类中的应用效果,具有较高的实用价值。
—第76篇----
=====
GAC-Net_Geometric and attention-based Network for Depth Completion
🔍 关键词: 计算机视觉, 人工智能
链接1
摘要: 深度补全是自动驾驶中的一项关键任务,旨在通过图像引导将稀疏的LiDAR深度测量转换为高质量的稠密深度图。然而,现有方法通常将深度图视为彩色图像的额外通道,或直接对稀疏数据进行卷积,未能充分利用深度图中的三维几何信息,特别是在复杂边界和稀疏区域表现有限。为了解决这些问题,本文提出了一种结合通道注意力机制和三维全局特征感知的深度补全网络(CGA-Net)。主要创新包括:1)利用PointNet++从稀疏深度图中提取全局三维几何特征,增强低线数LiDAR数据的场景感知能力;2)设计了一种基于通道注意力的多模态特征融合模块,高效整合稀疏深度、RGB图像和三维几何特征;3)将残差学习与CSPN++结合,优化深度细化阶段,进一步提高边缘区域和复杂场景的补全质量。在KITTI深度补全数据集上的实验证明,CGA-Net能够显著提高稠密深度图的预测准确性,达到了新的最先进水平,并显示出对稀疏和复杂场景的强鲁棒性。
总结: 本文提出的CGA-Net通过融合通道注意力机制与三维全局特征感知,显著提升了自动驾驶中稀疏LiDAR数据的深度补全效果,达到了新的技术前沿。
###【arXiv编号】2501.07988v1
###【git】无
###【期刊】未公布
###【领域】计算机视觉, 人工智能
[推荐指数:5]
推荐理由
该研究创新性地结合了PointNet++与通道注意力机制,有效提升了深度补全的准确性和鲁棒性,在KITTI数据集上实现了新的最先进水平,对自动驾驶领域具有重要的应用价值和研究意义。
=====
—第77篇----
=====
Private Collaborative Edge Inference via Over-the-Air Computation
🔍 关键词: cs.LG, cs.AI, cs.CR, cs.IT, math.IT
链接1
摘要: 我们考虑在无线边缘进行协同推理,在这种情况下,每个客户端的模型在其本地数据集上独立训练。客户端被并行查询,以协同做出准确的决策。除了最大化推理准确性之外,我们还希望确保本地模型的隐私。为此,我们利用多址信道的叠加特性来实现带宽高效的多用户推理方法。我们提出了几种利用空中计算(OAC)的集成和多视图分类方法。我们表明,这些方案在使用更少资源并提供隐私保障的同时,比它们的正交对应方案表现更好,具有统计学上显著的差异。我们还提供了实验证明了所提OAC方法在多用户推理中的优势,并进行了消融研究以证明我们设计选择的有效性。我们将在Github上公开共享该框架的源代码,以促进进一步的研究和可重复性。
总结: 通过利用多址信道的叠加特性,本文提出了带宽高效且保障隐私的多用户协同推理方法,比传统方法更高效。
###【arXiv编号】2407.21151v2
###【git】公开的源代码链接未提供
###【期刊】暂无
###【领域】计算机科学,机器学习,人工智能,密码学,信息理论
[推荐指数:4]
推荐理由
本文提出了一种创新的多用户协同推理方法,利用空中计算提高带宽效率并保障模型隐私,通过实验验证了其优越性,具有较高的研究和应用价值。
—第78篇----
=====
视频中的面部动态:针对面部表情感知和上下文意识的指令调优
🔍 关键词: cs.CV, cs.AI
链接1
摘要: 面部表情描述在各个领域中已得到广泛应用。最近,视频多模态大型语言模型(MLLMs)的出现在通用视频理解任务中展现出潜力。然而,对于这些模型来说,在视频中描述面部表情存在两个主要挑战:(1)缺乏足够的数据集和基准,(2)视频MLLMs的视觉词元容量有限。为了解决这些问题,本文引入了一个新的针对动态面部表情描述的指令遵循数据集。该数据集包含5033个高质量视频片段,手动注释,总计超过700,000个词元。其目的是提高视频MLLMs区分细微面部差异的能力。此外,我们提出了FaceTrack-MM,利用有限的词元来编码主要角色的面部。该模型在跟踪面部和聚焦主要角色面部表情方面表现出色,即使在复杂的多人物场景中也是如此。此外,我们引入了一种新颖的评估指标,结合事件提取、关系分类和最长公共子序列(LCS)算法,以评估生成文本的内容一致性和时间序列一致性。此外,我们提出了FEC-Bench,这是一个旨在评估现有视频MLLMs在此特定任务中表现的基准。所有数据和源代码将公开提供。
总结: 本文提出了一个新的动态面部表情描述数据集和FaceTrack-MM模型,以提升视频多模态大型语言模型在面部表情感知和上下文理解方面的能力,并建立了FEC-Bench基准进行评估。
###【arXiv编号】2501.07978v1
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能
[推荐指数:4]
推荐理由
本文针对视频中面部表情描述的挑战,提供了高质量的数据集和创新的模型方法,并建立了专门的评估基准,具有较高的创新性和实用性。
—第79篇----
=====
Comprehensive Metapath-based Heterogeneous Graph Transformer for Gene-Disease Association Prediction
🔍 关键词: 基因-疾病关联预测, 异构图, Transformer, 机器学习
链接1
摘要: 发现基因与疾病的关联对于理解疾病机制至关重要,然而由于生物实验的时间和成本,识别这些关联仍然具有挑战性。计算方法在高效且可扩展的基因-疾病关联预测中日益重要。图学习模型,利用节点特征和网络关系,常被用于生物分子预测。然而,现有方法往往难以有效集成节点特征、异构结构和语义信息。为了解决这些挑战,我们提出了全面的基于元路径的异构图 Transformer (COMET) 用于预测基因-疾病关联。COMET整合多样的数据集以构建全面的异构网络,使用BioGPT初始化节点特征。我们定义了七个元路径,并利用Transformer框架聚合元路径实例,捕捉全局上下文和长距离依赖。通过注意机制进行元路径内和元路径间聚合,COMET融合多个元路径的潜在向量以增强基因-疾病关联预测的准确性。我们的方法在与最先进方法的对比中显示出更优的鲁棒性。消融研究和可视化验证了COMET的有效性,为推进人类健康研究提供了有价值的见解。
总结: COMET是一种新型的基于元路径的异构图 Transformer 模型,通过融合多个元路径和生物信息,有效提升了基因与疾病关联预测的准确性和鲁棒性。
###【arXiv:2501.07970v1】
###【期刊】
###【领域】
计算机科学 - 人工智能,生物信息学
[推荐指数:4]
推荐理由
该研究提出了一种创新的异构图 Transformer 模型COMET,能够有效整合多源生物数据,显著提高基因-疾病关联预测的准确性和鲁棒性,具有重要的理论和应用价值。
=====
—第80篇----
=====
文章名称
🔍 关键词: cs.LG, cs.AI, stat.ML
链接1
摘要: 高斯过程(GP)无疑是实践中应用最广泛的机器学习算法之一。其显著应用之一是贝叶斯优化(BO)。尽管基础的GP本身已经是一个强大的BO工具,但能够考虑多个输出之间的依赖关系通常是有益的。为此,提出了多任务GP(MTGP),但从现有文献中完全理解其公式及其梯度的推导并非易事。本文为MTGP公式及其梯度提供了友好的推导。总结: 本文通过详细推导多任务高斯过程及其梯度,提升了其在贝叶斯优化中的应用理解。
###【arXiv编号】2501.07964v1
###【领域】
计算机科学,机器学习,人工智能
[推荐指数:4]
推荐理由
该论文提供了多任务高斯过程及其梯度的详细推导,增强了对其在贝叶斯优化中应用的理解,具有较高的学术价值和实用性。
—第81篇----
=====
Self-Instruct Few-Shot Jailbreaking: Decompose the Attack into Pattern and Behavior Learning
🔍 关键词: cs.AI
PDF链接
GitHub
摘要: 近期,一些研究工作针对大规模语言模型(LLMs)进行了少样本恶意演示的越狱攻击。特别地,Zheng等人(2024)通过向演示中注入特殊标记并采用演示级随机搜索的方法,提升了少样本越狱攻击(FSJ)的效率。然而,这种方法缺乏通用性,因为它指定了指令-响应结构。此外,插入特殊标记在诱导有害行为方面的作用原因仅在经验上进行了讨论。本文深入探讨了特殊标记注入的机制,提出了通过演示级贪婪搜索实现的自指令少样本越狱攻击(Self-Instruct-FSJ)。该框架将FSJ攻击分解为模式学习和行为学习,以更通用和高效的方式利用模型的漏洞。我们进行了详尽的实验,对常见开源模型进行了评估,并与基线算法进行了比较。我们的代码可在https://github.com/iphosi/Self-Instruct-FSJ上获取。
总结: 本文提出了一种通过模式和行为学习分解攻击的方法,以更通用和高效的方式进行少样本越狱攻击。
###【arXiv编号】2501.07959v1
###【git】https://github.com/iphosi/Self-Instruct-FSJ
###【期刊】
###【领域】计算机科学 - 人工智能安全
[推荐指数:4]
推荐理由
该研究在少样本越狱攻击领域提出了创新性的方法,具有较高的实用性,能有效提升对大规模语言模型安全性的理解和防护。
=====
—第82篇----
=====
DIDLM:应对恶劣天气、低光照条件和崎岖道路的困难场景下的SLAM数据集,包含红外、深度摄像头、LIDAR、4D雷达等
🔍 关键词: SLAM, 多传感器融合, 恶劣天气, 低光照, 自主驾驶
PDF链接
摘要: 恶劣天气条件、低光照环境和崎岖的道路表面对机器人导航和自主驾驶中的SLAM(同步定位与地图构建)构成了重大挑战。该领域现有的数据集主要依赖单一传感器或LiDAR、摄像头与IMU的组合。然而,4D毫米波雷达在恶劣天气下表现出鲁棒性,红外摄像头在低光照条件下擅长捕捉细节,深度图像提供了更丰富的空间信息。多传感器融合方法也显示出更好地适应崎岖道路的潜力。尽管一些SLAM研究结合了这些传感器和条件,但仍缺乏全面的数据集,这些数据集要么未能涵盖低光照环境和崎岖道路条件,要么未包含足够多样的传感器数据。在本研究中,我们引入了一个多传感器数据集,涵盖了雪天、雨天、夜间条件、减速带和崎岖地形等具有挑战性的场景。该数据集包括了在极端条件下罕见使用的传感器,如4D毫米波雷达、红外摄像头和深度摄像头,以及3D LiDAR、RGB摄像头、GPS和IMU。它支持自主驾驶和地面机器人应用,并提供了可靠的GPS/INS地面真实数据,涵盖结构化和半结构化地形。我们使用该数据集评估了各种SLAM算法,包括RGB图像、红外图像、深度图像、LiDAR和4D毫米波雷达。该数据集总覆盖18.5公里,69分钟,约660 GB,为在复杂和极端条件下推进SLAM研究提供了宝贵资源。我们的数据集可在 https://github.com/GongWeiSheng/DIDLM 获取。
总结: 本数据集通过融合多种传感器并涵盖多种复杂环境,显著提升了SLAM算法在极端条件下的性能评估能力。
###【arXiv编号】2404.09622v2
###【git】https://github.com/GongWeiSheng/DIDLM
###【领域】计算机科学、人工智能、机器人学、自主驾驶
[推荐指数:4]
推荐理由
该数据集在多传感器融合和极端条件下的SLAM研究方面具有创新性和实用性,为相关领域提供了丰富的实验资源,尽管创新性较高但尚需在实际应用中进一步验证,因此推荐指数为4。
—第83篇----
=====
AI Guide Dog: Egocentric Path Prediction on Smartphone
🔍 关键词: cs.RO, cs.AI, cs.CV, cs.HC, cs.LG
链接1
摘要: 本文介绍了AI Guide Dog (AIGD),一种轻量级的第一人称导航辅助系统,专为视障人士设计,能够在智能手机上实时部署。AIGD通过采用仅基于视觉的多标签分类方法来预测方向指令,应对盲人导航中的关键挑战,确保在多样化环境中的安全穿越。我们提出了一种新的技术,通过整合GPS信号和高层次方向,实现基于目标的户外导航,同时在无目标的室内导航中应对不确定的多路径预测。我们的通用模型是首个能够处理室内和室外环境中基于目标和探索性导航场景的导航辅助系统,建立了盲人导航的新技术标准。我们展示了方法、数据集、评估和部署见解,旨在鼓励辅助导航系统的进一步创新。
总结: AIGD 是一种首创的智能手机上实时部署的多场景盲人导航辅助系统,结合视觉多标签分类和GPS定位,提升了视障人士的导航能力。
###【arXiv编号】arXiv:2501.07957v1
###【期刊】无
###【领域】计算机科学,人工智能,计算机视觉,健康计算,机器学习
[推荐指数:5]
推荐理由
AIGD在盲人导航辅助领域开创性地结合多种技术,提供了室内外全方位导航解决方案,具有高度的创新性和实用性。
—第84篇----
=====
Evaluation of Artificial Intelligence Methods for Lead Time Prediction in Non-Cycled Areas of Automotive Production
🔍 关键词: 人工智能, 交付时间预测, 机器学习, LightGBM, 汽车生产
链接1
摘要: 本研究评估了在汽车生产环境中应用人工智能方法预测非周期控制生产区域中未知交付时间的有效性。通过分析数据结构识别上下文特征,并使用独热编码进行预处理。方法选择集中于监督机器学习技术,评估了回归和分类方法。基于目标大小分布的连续回归不可行。分类方法分析表明,集成学习和支持向量机最为适用。初步研究结果显示,梯度提升算法LightGBM、XGBoost和CatBoost表现最佳。经过进一步测试和广泛的超参数优化后,最终选择了LightGBM算法。根据特征可用性和预测间隔粒度,预测准确率可达90%。进一步测试强调了定期重新训练AI模型以准确反映复杂生产过程的重要性。研究表明,AI方法可有效应用于高度可变的生产数据,通过为各种控制任务提供额外的度量标准,超越当前非AI系统,从而增加业务价值。
总结: 研究证明了LightGBM等AI方法在汽车生产中的高效交付时间预测能力,显著优于现有非AI系统。
###【arXiv编号】
2501.07317v2
###【git】
无
###【期刊】
无
###【领域】
计算机科学 - 机器学习, 人工智能, 机器人学
[推荐指数:4]
推荐理由
该研究在汽车生产领域有效应用了先进的机器学习算法,预测准确率高达90%,具有较高的创新性和实用性,能够为生产过程优化提供有力支持。
—第85篇----
=====
PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video Prediction
🔍 关键词: cs.CV, cs.AI, 14J60, 14F05, 14J26, I.2.6, I.5
PDF Link
摘要: 在本文中,我们研究了时空视频预测任务的挑战,该任务涉及基于历史时空观测流生成未来视频帧。现有方法通常利用诸如语义图等外部信息来提高视频预测的准确性,但往往忽视了嵌入在视频中的固有物理知识。更糟糕的是,它们高昂的计算成本可能阻碍了其在高分辨率视频中的应用。为了解决这些限制,我们引入了一种新颖的框架,称为物理辅助时空网络(PastNet),用于高质量的视频预测。PastNet的核心在于在傅里叶域中引入频谱卷积算子,高效地引入了来自潜在物理定律的归纳偏置。此外,我们利用估计的内在维数的存储库来在处理复杂的时空信号时离散化局部特征,从而降低计算成本,促进高分辨率视频预测的高效性。在各种广泛使用的时空视频基准上进行了大量实验,结果表明,与一系列最先进的方法相比,所提出的PastNet在高分辨率场景下尤其表现出有效性和效率。
总结: PastNet通过在傅里叶域中引入物理归纳偏置和高效的内存管理,实现了高分辨率视频预测的高效准确。
###【arXiv编号】2305.11421v3
###【领域】计算机视觉,人工智能
[推荐指数:4]
推荐理由
PastNet在视频预测领域引入物理归纳偏置,显著提高了高分辨率视频的预测效率和准确性,具有较高的创新性和实用性。
—第86篇----
=====
Early prediction of the transferability of bovine embryos from videomicroscopy
🔍 关键词: eess.IV, cs.AI, cs.CV, q-bio.QM
PDF Link
摘要: 视频显微镜结合机器学习是研究体外受精牛胚胎早期发育并尽快评估其转移能力的有前途的工具。我们旨在在四天内预测胚胎的转移能力,最多使用二维时序显微镜视频作为输入。我们将这个问题表述为一个监督的二分类问题,分类为可转移和不可转移。挑战有三方面:1)外观和运动区分度低,2)类别歧义,3)带注释的数据量小。我们提出了一种包含三个路径的3D卷积神经网络,使其在时间上具有多尺度,并能够以不同的方式处理外观和运动。在训练中,我们采用了焦点损失。我们的模型,称为SFR,与其他方法相比表现出色。实验表明它在我们具有挑战性的生物任务中的有效性和准确性。
总结: 提出了一种基于3D卷积神经网络的模型,有效预测牛胚胎转移能力,解决了外观差异小、类别模糊和数据稀缺等挑战。
###【arXiv:2501.07945v1】
###【git】
###【期刊】
###【领域】: 计算机视觉、人工智能、生物量化
[推荐指数:4]
推荐理由
该研究结合视频显微技术与先进的多路径3D CNN模型,成功解决了在生物领域中胚胎转移能力预测的关键问题,具有较高的创新性和实用性。
—第87篇----
=====
Advice for Diabetes Self-Management by ChatGPT Models: Challenges and Recommendations
🔍 关键词: cs.AI
PDF链接
摘要: 鉴于大语言模型在高级推理、广泛的上下文理解和强大的问答能力方面的优势,它们在医疗管理研究中变得越来越突出。尽管这些模型能够熟练处理各种医疗查询,但在为糖尿病等慢性病提供准确和实用的建议方面仍面临重大挑战。我们评估了ChatGPT 3.5和4版本对糖尿病患者查询的响应,评估了它们的医学知识深度以及提供个性化、情境化糖尿病自我管理建议的能力。研究发现在准确性和嵌入偏见方面存在差异,强调了除非通过复杂的提示技术激活,否则这些模型在提供定制化建议方面的局限性。此外,我们观察到两种模型在提供建议时经常未能寻求必要的澄清,这种做法可能导致潜在的危险建议。这凸显了在临床环境中缺乏人工监督时,这些模型的实际有效性有限。为了解决这些问题,我们提出了一种常识评估层用于提示评估,并使用先进的检索增强生成技术整合疾病特定的外部记忆。这种方法旨在提高信息质量并减少错误信息风险,从而促进更可靠的AI在医疗环境中的应用。我们的研究结果旨在影响未来AI在医疗领域的发展方向,提升其整合的范围和质量。
总结: 研究评估了ChatGPT在糖尿病自我管理中的应用挑战,并提出改进建议以增强其在医疗中的可靠性。
###【arXiv编号】2501.07931v1
###【git】
###【期刊】
###【领域】计算机科学 - 人工智能;医疗健康
[推荐指数:4]
推荐理由
本文深入分析了大型语言模型在医疗自我管理中的应用,识别出当前存在的主要问题并提出了切实可行的改进方案,具有较高的创新性和实用性,对AI在医疗领域的未来发展具有重要参考价值。
—第88篇----
=====
一种自适应正交卷积方案,用于高效且灵活的卷积神经网络结构
🔍 关键词: 自适应正交卷积,卷积神经网络,机器学习,梯度稳定
链接1
摘要: 正交卷积层是机器学习多个领域的核心,例如对抗鲁棒性、正则流、生成对抗网络(GANs)以及Lipschitz约束模型。它们保持范数和确保梯度传播稳定的能力使其在广泛的问题中具有价值。尽管其前景广阔,但由于计算开销和对现代特性的有限支持,如步幅、扩张、组卷积和转置卷积,在大规模应用中部署正交卷积仍然是一个重大挑战。本文介绍了AOC(自适应正交卷积),这是一种构建正交卷积的可扩展方法,有效克服了这些限制。这一进展解锁了以前被认为不切实际的结构的构建。通过实验我们证明了我们的方法能够产生表现力强的模型,且随着规模的扩大效率不断提高。为了促进进一步的发展,我们提供了实现该方法的开源库,网址为https://github.com/thib-s/orthogonium。
总结: 本文提出了一种可扩展的自适应正交卷积方法,显著提升了正交卷积在卷积神经网络中的应用效率和灵活性。
###【arXiv编号】2501.07930v1
###【git】https://github.com/thib-s/orthogonium
###【期刊】
###【领域】计算机科学,人工智能,机器学习
[推荐指数:4]
推荐理由
AOC方法创新性地解决了正交卷积在大规模应用中的计算开销和功能限制问题,提供了高效且灵活的卷积神经网络架构,并附带开源实现,具有较高的实用性和应用潜力。
—第89篇----
=====
Gandalf the Red: Adaptive Security for LLMs
🔍 关键词: 大型语言模型, 安全, 对抗性攻击, 动态安全
PDF链接
摘要: 当前针对大型语言模型(LLM)应用中提示攻击防御的评估常常忽视了两个关键因素:对抗行为的动态性以及限制性防御对合法用户可用性的影响。我们提出了D-SEC(动态安全实用威胁模型),明确区分攻击者与合法用户,建模多步交互,并严格表达安全与实用性的可优化形式。进一步,通过引入Gandalf,一个众包的、游戏化的红队平台,生成了现实且自适应的攻击数据集。利用Gandalf,我们收集并发布了一个包含27.9万次提示攻击的数据集。结合良性用户数据的分析揭示了安全性与可用性之间的相互作用,显示集成在LLM中的防御措施(如系统提示)即使不阻止请求也可能降低可用性。我们证明了受限的应用领域、多层防御以及自适应防御是构建安全且实用的LLM应用的有效策略。
总结: 本文提出了D-SEC动态安全模型,并通过Gandalf平台收集自适应攻击数据,展示了在确保大型语言模型安全性的同时保持其实用性的有效策略。
###【arXiv编号】2501.07927v1
###【git】https://github.com/lakeraai/dsec-gandalf
###【期刊】未发布
###【领域】人工智能, 机器学习, 计算语言学, 密码学与安全
[推荐指数:4]
推荐理由
该研究创新性地提出了动态安全模型D-SEC,并通过Gandalf平台实证自适应攻击的生成与防御策略,深入探讨了安全性与可用性之间的平衡,具有较高的理论价值和实际应用潜力。
—第90篇----
=====
Exploring Aviation Incident Narratives Using Topic Modeling and Clustering Techniques
🔍 关键词: cs.AI, cs.CL, Topic Modelling, narratives, clustering, Aviation Incidents, NTSB
链接1
摘要: 航空安全是全球关注的问题,需要详细调查事故以全面了解促成因素。本研究利用国家运输安全委员会(NTSB)数据集,应用先进的自然语言处理(NLP)技术,包括潜在狄利克雷分配(LDA)、非负矩阵分解(NMF)、潜在语义分析(LSA)、概率潜在语义分析(pLSA)和K均值聚类。主要目标是识别潜在主题,探索语义关系,评估概率连接,以及基于共享特征对事故进行聚类。本研究通过提供对事故叙述的洞察,并展示NLP和主题建模技术从复杂数据集中提取有价值信息的多功能性,促进了航空安全。结果包括来自各种技术识别的主题,提供了对重复主题的理解。比较分析显示LDA的连贯性值最高为0.597,其次是pLSA 0.583,LSA 0.542,NMF 0.437。K均值聚类进一步揭示了事故叙述中的共性和独特见解。总之,本研究揭示了事故叙述中的潜在模式和主题结构,并对多种主题建模技术进行了比较分析。未来的研究方向包括探索时间模式、纳入额外数据集以及开发用于早期识别安全问题的预测模型。本研究为利用事故叙述中蕴含的丰富信息,增强航空安全的理解和改进奠定了基础。
总结: 本研究通过应用多种自然语言处理和主题建模技术,揭示了航空事故叙述中的潜在模式与主题结构,为航空安全的理解和提升提供了关键洞察。
###【arXiv:2501.07924v1】
###【期刊】
###【领域】计算机科学 - 人工智能, 计算语言学
[推荐指数:4]
推荐理由
该研究创新性地结合多种NLP与主题建模技术分析航空事故数据,实用性强,有助于提升航空安全,但在预测模型的开发和验证方面仍需进一步研究。
—第91篇----
=====
Large Language Model Interface for Home Energy Management Systems
🔍 关键词: 大型语言模型, 家庭能源管理系统, ReAct, 少样本提示
链接1
摘要: 家庭能源管理系统(HEMS)帮助家庭根据电力系统信号如能源价格调整其电力使用。这项技术有助于降低能源账单,并提供更大的需求侧灵活性,支持电力系统稳定性。然而,缺乏技术背景的居民可能难以有效使用HEMS,因为HEMS需要反映能源资源、房屋和用户需求特性的良好格式化参数。最近,大型语言模型(LLM)在语言理解方面表现出色。受此启发,我们提出了一种基于LLM的接口,与用户互动以理解和参数化他们的“格式不良的回答”,然后输出良好格式化的参数以实施HEMS。我们进一步使用ReAct方法和少样本提示来增强LLM的性能。评估接口性能需要多次用户-LLM交互。为了避免寻找志愿用户的努力并减少评估时间,我们另外提出了一种使用另一个LLM模拟具有不同专业知识水平(从有知识到非技术)的用户的方法。通过全面评估,所提出的基于LLM的HEMS接口实现了平均参数检索准确率为88%,优于没有使用ReAct和/或少样本提示的基准模型。
总结: 本文提出了一种基于大型语言模型的接口,显著提高了家庭能源管理系统的参数配置准确性,便于非技术用户使用。
###【arXiv编号】2501.07919v1
###【git】
###【期刊】
###【领域】人工智能,家庭能源管理
[推荐指数:4]
推荐理由
该研究通过应用大型语言模型和ReAct方法显著提升了家庭能源管理系统的易用性和准确性,具有较高的创新性和实用性。
—第92篇----
=====
MoPE: Mixture of Prompt Experts for Parameter-Efficient and Scalable Multimodal Fusion
🔍 关键词: cs.LG, cs.AI, cs.CL, cs.CV
PDF链接
项目主页
摘要: 尽管基于提示的多模态融合方法在参数效率方面表现出色,但其有限的适应性和表现力往往导致性能不如其他调优方法。在本文中,我们介绍了Prompt Experts混合(MoPE),这是首个旨在通过分解标准提示以自适应捕捉实例级特征来克服这些限制的技术。基于这种分解,MoPE通过利用多模态配对先验动态路由每个实例最有效的提示,从而增强了提示融合的表现力。与传统提示相比,我们基于MoPE的融合方法表现出更高的表现力,能够更有效地随着训练数据和可训练参数总数的增加而扩展。我们还研究了专家路由的正则化项,这导致了专家的自发专化,增强了适应性和可解释性。跨越四种模态的六个多模态数据集的大量实验证明了提示融合的最先进性能,匹配甚至超过了微调的性能,同时只需要0.8%的可训练参数。
总结: MoPE通过自适应分解和动态路由显著提升了多模态融合的效率和表现力,实现了与微调相当甚至更优的性能,同时大幅减少了所需参数量。
###【arXiv编号】2403.10568v3
###【git】https://github.com/songrise/MoPE
###【期刊】
###【领域】计算机科学,人工智能,计算语言学,计算机视觉
[推荐指数:5]
推荐理由
MoPE在多模态融合领域提出了创新性的混合提示专家方法,不仅提升了表现力和适应性,还显著降低了参数需求,实验证明其性能优越,具有很高的研究和应用价值。
—第93篇----
=====
UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts
🔍 关键词: cs.CL, cs.AI
链接1
摘要: 数学推理能力的评估对于推动通用人工智能(AGI)的发展至关重要。尽管大型语言模型(LLMs)在解决数学问题方面表现出色,但现有基准如GSM8K和MATH存在局限性,包括问题定义狭窄、特定数字依赖以及依赖预定规则,这些都阻碍了对模型推理能力和通用性的准确评估。本文介绍了UTMath基准,一个强大的评估框架,旨在通过广泛的单元测试来评估LLMs,重点关注模型响应的准确性和通用性。该基准包含1053个前沿问题,涵盖九个数学领域,每个问题平均有68个测试用例。UTMath具有很高的挑战性,表现最佳的模型o1-mini仅解决了32.57%的问题,其次是o1-preview(27.16%)和GPT-4o(26.93%)。此外,我们提出了“推理到编码的思维”(RCoT)方法,鼓励LLMs在生成代码前进行明确的推理,从而促进更复杂解决方案的生成,提高整体性能和效率。我们还发布了UTMath-Train训练数据集(超过70k个样本),以支持社区进一步探索数学推理。我们的基准可以通过以下链接访问:https://github.com/UTMathGroup/UTMath
总结: 本文提出了UTMath基准及RCoT方法,通过广泛的单元测试和推理-编码策略,全面评估大型语言模型在数学推理能力上的表现。
###【arXiv编号】2411.07240v2
###【git】https://github.com/UTMathGroup/UTMath
###【期刊】
###【领域】计算语言学、人工智能
[推荐指数:4]
推荐理由
UTMath基准通过大量多样的数学问题和单元测试,提供了一个严谨且具有挑战性的评估工具,结合RCoT方法的创新性,有助于深入理解和提升大型语言模型的数学推理能力,具有较高的学术价值和实用性。
=====
—第94篇----
=====
Governing AI Agents
🔍 关键词: AI代理, 委托-代理问题, 信息不对称, 法律框架
链接1
摘要: 人工智能领域正经历从能够按需生成合成内容的系统向自主代理转型,这些代理能够规划和执行复杂任务,仅需有限的人类参与。那些开创性开发生成式AI工具的公司现在正在构建可以独立浏览互联网、执行各种在线任务,并作为人工个人助理和虚拟同事的AI代理。这项新技术带来的机遇巨大,伴随的风险也同样显著。幸运的是,存在稳健的分析框架来应对这些挑战,即委托-代理问题的经济理论和普通法中的代理关系学说。本文基于这些框架做出三点贡献。首先,利用代理法律和理论识别和描述由AI代理引发的问题,包括信息不对称、酌处权和忠诚度问题。其次,阐明了传统代理问题解决方案的局限性:激励设计、监控和执法可能无法有效治理那些做出不可解释决策并以前所未有的速度和规模运作的AI代理。第三,本文探讨了代理法律和理论对AI代理设计和监管的影响,认为需要新的技术和法律基础设施来支持包容性、可见性和责任的治理原则。
总结: 本文运用代理法律与经济理论分析自主AI代理面临的治理挑战,揭示传统解决方案的不足,并呼吁建立新的技术与法律基础以有效管理AI代理。
###【arXiv编号】2501.07913v1
###【git】
###【期刊】
###【领域】计算机科学, 人工智能
[推荐指数:4]
推荐理由
该文章创新性地将委托-代理理论和法律框架应用于AI代理的治理,具有高度的理论价值和实际应用潜力,但在具体实施方案上仍需进一步探讨。
=====
Short Summary Sentence
本文通过代理法律与经济理论分析自主AI代理的治理问题,指出传统方法的局限,并建议构建新的技术与法律基础设施以实现有效管理。
—第95篇----
=====
深度学习与自然语言处理在建筑领域中的应用
🔍 关键词: 深度学习, 自然语言处理, 建筑领域, 术语提取, 上位词识别
链接1
摘要: 本文提出了一个完整的过程,用于在建筑领域中提取上位词关系,主要包括两个步骤:术语提取和从这些术语中检测上位词。首先,我们描述了语料库分析方法,从建筑领域的一系列技术规格中提取术语。利用统计和词n-gram分析,提取领域术语,然后通过语言模式和互联网查询进行修剪步骤,以提高最终术语的质量。其次,我们提出了一种基于各种词嵌入模型和组合的机器学习方法,用于处理从提取的术语中检测上位词。提取的术语通过领域内6位专家进行手动评估,且上位词识别方法通过不同的数据集进行了评估。整体方法提供了相关且有前景的结果。
总结: 本文提出并验证了一个在建筑领域中利用深度学习和自然语言处理提取和识别上位词关系的有效方法。
###【arXiv编号】 arXiv:2501.07911v1
###【git】
###【期刊】
###【领域】 计算机科学, 人工智能
[推荐指数:3]
推荐理由
本文应用深度学习和自然语言处理技术解决建筑领域的术语提取和上位词识别问题,结果具有一定的实际应用价值,但方法尚缺乏创新性。
—第96篇----
=====
Logarithmic Memory Networks (LMNs): Efficient Long-Range Sequence Modeling for Resource-Constrained Environments
🔍 关键词: cs.AI, cs.LG
链接1
摘要: 长序列建模是自然语言处理和时间序列分析中的关键方面。然而,传统模型如循环神经网络(RNN)和变压器在处理长序列时存在计算和内存效率低下的问题。本文介绍了对数记忆网络(LMNs),一种利用层次对数树结构高效存储和检索过去信息的新型架构。LMNs 动态总结历史上下文,显著减少注意力机制的内存占用和计算复杂度,从 O(n²) 降低到 O(log(n))。该模型采用单向量、针对性的注意机制来访问存储的信息,记忆块构建工作层(总结器)以两种模式运行:训练期间的并行执行模式以高效处理层次树结构,以及推理期间的顺序执行模式,充当内存管理系统。它还隐式编码位置信息,消除了对显式位置信息编码的需求。这些特性使 LMNs 成为在资源受限环境中处理长序列的强大且可扩展的解决方案,在效率和可扩展性方面提供了实用的改进。代码在 GitHub 上以 MIT 许可证公开可用:https://github.com/AhmedBoin/LogarithmicMemory。
总结: LMNs 通过层次对数树结构和动态历史总结,实现了在资源受限环境下高效、可扩展的长序列建模。
###【arXiv编号】2501.07905v1
###【git】https://github.com/AhmedBoin/LogarithmicMemory
###【期刊】
###【领域】自然语言处理,时间序列分析
[推荐指数:4]
推荐理由
该研究提出了创新性的对数记忆树结构,有效降低了长序列建模的计算和内存开销,适用于资源受限的应用场景,具备较高的实用价值。
—第97篇----
=====
To Analyze and Regulate Human-in-the-loop Learning for Congestion Games
🔍 关键词: 拥堵游戏, 人机交互学习, 路由机制, 信息披露, 无序性价格
链接1
摘要: 在拥堵游戏中,自私的用户为了使用最短路径而表现出目光短浅的行为,社会规划者通过信息或支付激励设计机制来调整这种自私的路由行为。然而,这种机制设计需要了解时变的交通状况,而用户本身需要学习并向社会规划者(例如Waze或Google Maps)报告过去的道路经验。当拥堵游戏与移动众包相结合时,如何激励自私的用户在最佳的开发-探索取舍中探索非最短路径是至关重要的。首先,我们考虑一个简单但基本的并行路由网络,具有一条确定性路径和多条随机路径,用户的平均到达概率为λ。我们证明了当前的目光短浅路由策略(广泛用于Waze和Google Maps)相比社会最优,既缺乏探索(当存在强灾害信念时)又缺乏利用(当灾害信念较弱时)。由于目光短浅策略的不足够探索,我们证明了其导致的无序性价格(PoA)大于 (\frac{1}{1-\rho^{\frac{1}{\lambda}}}),当折扣因子 (\rho \rightarrow 1) 时,该值可任意增大。为了减轻如此巨大的效率损失,我们提出了一种新颖的选择性信息披露(SID)机制:仅在用户希望过度探索随机路径抵达时向其披露最新的交通信息,而在用户想要不足够探索时隐藏此类信息。我们证明了该机制成功将PoA降低到小于2。除了并行路由网络,我们还将该机制和PoA结果扩展到具有多个中间节点的任何线性路径图。
总结: 该研究提出了一种选择性信息披露机制,以优化拥堵游戏中的用户路由行为,显著降低无序性价格并提升交通效率。
###【arXiv:2501.03055v2】
###【git】:
###【期刊】:
###【领域】: 博弈论, 人工智能, 智慧交通
[推荐指数:4]
推荐理由
论文在拥堵游戏中引入人机交互学习机制,提出创新的选择性信息披露方法,有效降低无序性价格,具有较高的创新性和实用性。
—第98篇----
=====
Optimal Classification Trees for Continuous Feature Data Using Dynamic Programming with Branch-and-Bound
🔍 关键词: 计算机科学, 机器学习, 动态规划, 分类树, 分支限界
链接1
摘要: 计算在给定大小限制内,能够在训练性能上具有可证明最大化效果的最优分类树是NP难问题,且在实际应用中,大多数先进方法在计算深度为三的最优树时无法扩展。因此,大多数方法依赖于对连续特征的粗略二值化以保持可扩展性。我们提出了一种新颖的算法,使用动态规划结合分支限界,直接在连续特征数据上优化树。我们开发了新的剪枝技术,当与先前计算的分裂相似时,可以消除许多次优分裂,并提供了用于计算最优深度为二的树的高效子程序。我们的实验表明,这些技术在运行时间上比最先进的最优方法提高了一到多个数量级,并在测试准确性上比贪婪启发式方法高出5%。
总结: 提出了一种基于动态规划和分支限界的新算法,显著提高了最优分类树在连续特征数据上的构建效率和准确性。
###【arXiv编号】2501.07903v1
###【git】
###【期刊】
###【领域】计算机科学,机器学习,人工智能
[推荐指数:5]
推荐理由
该研究通过引入动态规划与分支限界相结合的方法,有效优化了连续特征数据上的分类树构建,不仅在运行效率上大幅提升,还在准确性上超越现有方法,具有高度的创新性和实用性。
=====
—第99篇----
=====
What type of inference is planning?
🔍 关键词: cs.AI, stat.ML
论文链接
摘要: 在概率图模型中,存在多种推理类型,例如边缘推理、最大后验推理,甚至边缘最大后验推理。当研究人员谈论“将计划作为推理”时,他们指的是什么类型?文献中缺乏一致性,不同类型被使用,并且它们进行计划的能力进一步与特定的近似或额外的约束纠缠在一起。在本研究中,我们使用变分框架展示,就像所有常用的推理类型对应于变分问题中熵项的不同加权一样,计划恰好对应于不同的一组权重。这意味着变分推理的所有技巧都可以直接应用于计划。我们开发了一种类环形信念传播的算法,使我们能够在分解状态的马尔可夫决策过程中进行近似规划,而不会因指数级的状态空间而导致计算不可行。变分视角表明,以前用于计划的推理类型仅适用于低随机性的环境,并允许我们通过其自身的优点来描述每种类型,分离推理类型与其实际使用所需的额外近似。我们在合成的马尔可夫决策过程和国际规划竞赛中提出的任务上对这些结果进行了实证验证。
总结: 本文通过变分框架将规划定义为特定类型的推理,提出了一种在大规模状态空间下进行近似规划的新方法,并通过实验证实其有效性。
###【arXiv:2406.17863v4】
###【git】
###【期刊】
###【领域】计算机科学 - 人工智能,统计学 - 机器学习
[推荐指数:4]
推荐理由
该研究在将规划与推理相结合方面具有较高的创新性,提出的方法在处理大规模状态空间时展现出实用性,适用于低随机性环境,尽管在创新性上仍有提升空间。
=====
—第100篇----
=====
ExPO: 可解释的语音特征导向网络用于说话人验证
🔍 关键词: cs.SD, cs.AI, eess.AS
PDF链接
摘要: 在说话人验证中,我们使用计算方法来验证一个话语是否与注册说话人的身份匹配。这个任务类似于法医语音比较的手动任务,其中将语言分析与听觉测量相结合,以比较和评估语音样本。尽管取得了许多成功,但我们尚未开发出可以提供与手动法医语音比较相当的可解释结果的说话人验证系统。本文提出了一种新颖的方法——可解释的语音特征导向(ExPO)网络,引入了描述说话人在语音层面特征的语音特征,这类似于法医比较的做法。ExPO不仅生成话语级的说话人嵌入,还允许对语音特征进行细粒度分析和可视化,提供了一个可解释的说话人验证过程。此外,我们从说话人内和说话人间的变异角度研究了语音特征,以确定哪些特征在说话人验证中最有效,这是朝着可解释说话人验证迈出的重要一步。我们的代码可在 https://github.com/mmmmayi/ExPO 获得。
总结: ExPO网络通过引入语音特征,提高了说话人验证过程的可解释性和分析能力。
###【arXiv:2501.05729v2】
###【https://github.com/mmmmayi/ExPO】
###【无】
###【计算机科学,人工智能,电子工程】
[推荐指数:4]
推荐理由
ExPO网络在说话人验证领域提出了可解释的方法,结合了语音特征的细粒度分析,具备较高的创新性和实用性,代码公开增强了研究的可复现性。
—第101篇----
=====
Snake Learning: A Communication- and Computation-Efficient Distributed Learning Framework for 6G
🔍 关键词: 分布式学习, 6G, 人工智能, 网络
链接1
摘要: 在迈向6G的过程中,将人工智能与先进的网络基础设施集成成为增强网络智能和资源利用率的关键策略。现有的分布式学习框架如联邦学习和拆分学习在动态网络环境中常常面临显著的挑战,包括高同步需求、昂贵的通信开销、严重的计算资源消耗以及网络节点之间的数据异构性。这些障碍阻碍了6G网络普适计算能力的应用,特别是在模型参数和训练数据量不断增加的趋势下。为有效应对这些挑战,本文提出了“Snake Learning”,一种具有成本效益的分布式学习框架。具体而言,Snake Learning 尊重6G网络中节点间计算能力和本地数据分布的异质性,并依次在各个节点上训练模型层的指定部分。这种逐层曲折更新机制显著降低了模型训练阶段对存储、内存和通信的需求,并在同质和异质数据分布下的分类和微调任务中展示了优越的适应性和效率。
总结: Snake Learning 提供了一种新颖且高效的分布式学习框架,显著降低了6G网络中模型训练的通信与计算开销。
###【arXiv编号】2405.03372v2
###【git】无
###【期刊】无
###【领域】计算机科学
[推荐指数:4]
推荐理由
Snake Learning框架在提升6G网络中分布式学习的效率和适应性方面具有显著的创新性和实用性,适合进一步研究和应用。
=====
—第102篇----
=====
Anytime Cooperative Implicit Hitting Set Solving
🔍 关键词: MaxSAT, Pseudo-boolean优化, 加权CSP, 多线程架构, 最优性间隙
链接1
摘要: 隐式击中集(HS)方法在MaxSAT、Pseudo-boolean优化及其他布尔框架中已显示出极高的有效性。最近,它通过所谓的成本函数合并在非常相似的加权约束满足问题(Weighted CSP)框架中也展示了其潜力。HS方法的原始形式侧重于获得越来越好的下界(HS-lb)。然而,正如在Pseudo-Boolean优化中所展示的,这种方法也可以适应于计算越来越好的上界(HS-ub)。在本文中,我们同时考虑了这两种HS方法,并展示了如何在多线程架构中轻松地将它们结合起来,其中任一组件发现的核心可以被另一方使用,这有趣地在它们之间产生了协同效应。我们展示了由此产生的算法(HS-lub)在单独使用HS-lb和HS-ub时始终优于它们。最重要的是,HS-lub具有有效的随时行为,其在执行过程中减少了最优性间隙。我们在加权CSP框架上测试了我们的方法,并在三个不同的基准测试中展示了我们非常简单的实现有时能够超越远更成熟的最先进Toulbar2的并行混合最佳优先搜索实现。
总结: 本文提出了一种结合上下界的多线程隐式击中集算法,显著提升了加权CSP问题的求解效率,并在多个基准测试中优于现有先进方法。
###【arXiv编号】2501.07896v1
###【git】-
###【期刊】-
###【领域】计算机科学,人工智能
[推荐指数:4]
推荐理由
该研究在隐式击中集方法上进行了创新性结合,通过多线程架构实现上下界的协同优化,显著提升了加权CSP问题的求解效率,具有较高的实用价值和学术贡献。
=====
—第103篇----
=====
Leveraging Metamemory Mechanisms for Enhanced Data-Free Code Generation in LLMs
🔍 关键词: cs.SE, cs.AI
链接1
摘要: 使用大型语言模型(LLMs)的自动代码生成因其效率和适应性而受到关注。然而,现实世界的编码任务或基准测试(如HumanEval和StudentEval)通常缺乏专门的训练数据集,这对依赖参考示例的现有少样本提示方法构成挑战。受人类元记忆——一种涉及回忆和评估的认知过程的启发,我们提出了一种新颖的框架(即M²WF),用于改进LLMs的一次性代码生成。这种方法使LLMs能够自主生成、评估并利用合成示例来增强可靠性和性能。与之前的方法不同,它最小化了对策划数据的依赖,并灵活适应各种编码场景。我们的实验表明,在编码基准测试中取得了显著改进,为无数据环境提供了一个可扩展且稳健的解决方案。代码和框架将公开在GitHub和HuggingFace上提供。
总结: 该研究提出了一种通过元记忆机制提升大型语言模型在无数据环境下自动代码生成能力的新框架,显著提高了编码基准的性能。
###【arXiv编号】: 2501.07892v1
###【git】: 代码和框架将公开在GitHub和HuggingFace上提供。
###【期刊】: 未提供
###【领域】: 自动代码生成、大型语言模型、元记忆机制
[推荐指数:4]
推荐理由
该研究提出了一种创新性的框架,通过元记忆机制在无数据环境下改进大型语言模型的代码生成能力,具有较高的实用性和潜在应用价值。
—第104篇----
=====
VBIM-Net: Variational Born Iterative Network for Inverse Scattering Problems
🔍 关键词: eess.SP, cs.AI, physics.comp-ph
链接1
摘要: 最近的研究表明,将场型迭代方法与深度学习(DL)技术相结合,在解决逆散射问题(ISP)方面具有潜力。在本文中,我们提出了一种新颖的变分Born迭代网络,即VBIM-Net,以显著提高全波逆散射问题的结构合理性和反演质量。所提出的VBIM-Net通过多个子网络模拟变分Born迭代方法(VBIM)中总电场和对比度的交替更新。我们将对比度变化的解析计算嵌入到每个子网络中,将散射场残差转化为近似的对比度变化,并通过U-Net进行增强,从而避免了现有方法中对测量维度和网格分辨率的匹配要求。VBIM-Net的损失函数中监督了每一层输出的总场和对比度,对子网络中的变量施加了软物理约束,这有益于模型的性能。此外,我们设计了一个带有额外噪声的训练方案,以增强模型的稳定性。对合成和实验数据的大量数值结果均验证了所提出的VBIM-Net的反演质量、泛化能力和鲁棒性。这项工作可能为设计高效的场型DL方案提供一些新的启示。
总结: VBIM-Net通过结合变分Born迭代方法和深度学习,有效提高了逆散射问题的反演质量和模型稳定性。
###【arXiv编号】2405.18731v2
###【git】无
###【期刊】无
###【领域】信号处理、人工智能、计算物理
[推荐指数:4]
推荐理由
该研究创新性地将传统迭代方法与深度学习相结合,显著提升了逆散射问题的解决效果,具有较高的实用性和潜在应用价值。
—第105篇----
=====
GRAPHMOE: Amplifying Cognitive Depth of Mixture-of-Experts Network via Introducing Self-Rethinking Mechanism
🔍 关键词: 混合专家网络,自我反思机制,图网络,低秩适应,语言模型
论文链接
摘要: 传统的混合专家(MoE)网络通过利用多个较小的专家模型而不是单一的大型网络而受益。然而,这些专家通常是独立运行的,这留下了一个问题:是否可以通过相互连接这些模型来增强MoE网络的性能。为此,我们引入了GRAPHMOE,这是一种通过在伪GraphMoE网络上构建自我反思机制以增强语言模型认知深度的新方法。GRAPHMOE采用循环路由策略来模拟迭代思考步骤,从而促进专家节点之间的信息流动。我们使用低秩适应技术(LoRA)实现了GRAPHMOE架构,并在各种基准数据集上进行了广泛的实验。实验结果显示,GRAPHMOE优于其他基于LoRA的模型,达到了最先进的(SOTA)性能。此外,本研究探讨了一种新颖的循环路由策略,可能为进一步增强语言模型的推理能力提供启示。
总结: GRAPHMOE通过自我反思机制和循环路由策略显著提升了混合专家网络在语言模型中的认知深度和性能。
###【arXiv编号】: arXiv:2501.07890v1
###【git】:
###【期刊】:
###【领域】: 计算机科学, 人工智能
[推荐指数:4]
推荐理由
GRAPHMOE提出了一种创新的自我反思机制和循环路由策略,有效提升了混合专家网络的性能,具有较高的创新性和实用性,但尚需更多实证验证以全面评估其应用潜力。
—第106篇----
=====
FoMo: 移动流量预测的基础模型与扩散模型
🔍 关键词: 移动流量预测,基础模型,扩散模型,Transformer,对比学习
链接1
摘要: 移动流量预测使运营商能够提前预见网络动态和性能,具有提高服务质量和改善用户体验的巨大潜力。然而,现有模型往往是任务导向的,使用定制的数据进行训练,这限制了它们在基站部署、资源分配、能源优化等多样化移动网络任务中的有效性,并阻碍了在不同城市环境中的泛化。基础模型由于其多任务适应和零/少量样本学习能力,在NLP和CV等各个领域取得了显著进展。本文提出了一种创新性的移动流量预测基础模型FoMo,旨在处理多城市的短期/长期预测和分布生成的多样化预测任务,以支持网络规划和优化。FoMo结合了扩散模型和Transformer,提出了各种时空掩码以使FoMo学习不同任务的内在特征,并开发了一种对比学习策略,以捕捉移动流量与城市背景之间的相关性,从而提高其迁移学习能力。在9个真实世界数据集上的大量实验证明,FoMo在多样化的预测任务和零/少样本学习方面优于当前模型,展现了强大的通用性。
总结: FoMo通过结合扩散模型和Transformer,并引入对比学习策略,实现了在多城市多任务移动流量预测中的高效和泛化能力。
###【arXiv编号】2410.15322v2
###【git】
###【期刊】
###【领域】计算机科学,人工智能
[推荐指数:5]
推荐理由
FoMo作为一种基础模型,展示了在多城市、多任务移动流量预测中的卓越性能和强大泛化能力,结合了扩散模型和Transformer的创新架构,以及对比学习策略,具有高度的创新性和实用价值。
—第107篇----
=====
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding
🔍 关键词: cs.CV, cs.AI
链接1
摘要: 我们介绍了Tarsier2,这是一种最先进的大型视觉-语言模型(LVLM),旨在生成详细准确的视频描述,同时展示出卓越的通用视频理解能力。Tarsier2通过三个关键升级实现了显著的进步:(1)将预训练数据从1100万对视频-文本对扩展到4000万对,丰富了数据量和多样性;(2)在监督微调过程中执行细粒度的时间对齐;(3)使用基于模型的采样自动构建偏好数据,并应用DPO训练进行优化。大量实验表明,Tarsier2-7B在详细视频描述任务中始终优于领先的专有模型,包括GPT-4o和Gemini 1.5 Pro。在DREAM-1K基准测试中,Tarsier2-7B在F1得分上比GPT-4o高2.8%,比Gemini-1.5-Pro高5.8%。在人类并排评估中,Tarsier2-7B相对于GPT-4o表现出+8.6%的优势,相对于Gemini-1.5-Pro表现出+24.9%的优势。Tarsier2-7B还在涵盖视频问答、视频定位、幻觉测试和具身问答等15个公共基准测试中设定了新的最先进结果,展示了其作为一个稳健的通用视觉-语言模型的多功能性。
总结: Tarsier2通过数据扩展、时间对齐和模型优化显著提升了大型视觉-语言模型的性能,成为最先进的通用视频理解工具。
###【arXiv:2501.07888v1】
###【git】
###【期刊】
###【领域】: 计算机视觉, 人工智能, 视频理解
[推荐指数:5]
推荐理由
Tarsier2在数据规模、模型架构和训练策略上的创新,以及在多个基准测试中超越现有模型的卓越性能,展示了其在计算机视觉和人工智能领域的高度创新性和实用性。
—第108篇----
迭代标签细化对弱监督下的偏好优化更为重要
🔍 关键词: cs.LG, cs.AI, cs.CL
PDF链接
摘要: 语言模型(LM)后训练依赖于两个阶段的人类监督:用于监督微调(SFT)的任务演示,随后是用于基于人类反馈的强化学习(RLHF)的偏好比较。随着LM能力的增强,它们被赋予的任务变得更难以监督。后训练在不可靠的监督下仍然有效吗?为了测试这一点,我们使用小型LM和时间受限的人类模拟不可靠的演示和比较反馈。我们发现,在不可靠的监督下,SFT仍然保持一定的有效性,但DPO(一种常见的RLHF算法)未能在SFT基础上进一步提升模型。为了解决这个问题,我们提出了迭代标签细化(ILR)作为RLHF的替代方案。ILR通过使用比较反馈来决定是否应将人类演示替换为模型生成的替代方案,从而改进SFT数据,然后在更新后的数据上通过SFT重新训练模型。SFT+ILR在多个不可靠监督的任务(数学、编码和安全指令遵循)上优于SFT+DPO。我们的发现表明,随着LM被用于复杂任务且人类监督不可靠时,RLHF可能不再是人类比较反馈的最佳使用方式;相反,更好的做法是将反馈用于改进训练数据,而不是持续训练模型。我们的代码和数据可在 GitHub 获取。
总结: 迭代标签细化在不可靠监督下比传统的偏好优化更有效,提升了语言模型在复杂任务中的性能。
###【arXiv编号】2501.07886v1
###【git】https://github.com/helloelwin/iterative-label-refinement
###【期刊】
###【领域】计算机科学·机器学习, 人工智能, 计算机语言学
[推荐指数:4]
推荐理由
该研究提出了一种创新的迭代标签细化方法,在不可靠监督条件下显著优于现有的强化学习方法,具有很高的实用价值,适用于提升语言模型在复杂和多样化任务中的表现。
—第109篇----
=====
FLM-101B: 一个开放的LLM以及如何用10万美元预算训练它
🔍 关键词: 大型语言模型, 进阶训练, 绿色AI, 成本效益
PDF链接
摘要: 大型语言模型(LLM)被认为是实现基础机器智能的重要方法,在自然语言处理和多模态任务等领域取得了显著成功。然而,重预训练计算所带来的碳足迹和财务成本是一个不容忽视的问题。受神经发生过程启发的进阶训练方法已显示出加速LLM预训练的潜力。然而,针对超过1000亿参数的LLM进行进阶训练的算法、实现和实践仍未得到充分探索。在本文中,我们展示了我们的模型FLM-101B,采用我们的增长策略在10万美元的预算下训练,仅使用基线模型的10%的浮点运算量即可达到其80%的性能。我们相信,进一步研究进阶训练将有助于社区降低成本并促进绿色AI的发展。FLM-101B的检查点已在https://huggingface.co/CofeAI/FLM-101B上发布。
总结: FLM-101B展示了一种在有限预算下高效训练大型语言模型的方法,大幅降低成本和计算资源需求。
###【arXiv:2309.03852v3】
###【】
###【】
###【计算机科学,人工智能】
[推荐指数:4]
推荐理由
该研究在大型语言模型的进阶训练方面取得了显著进展,提供了一种经济高效且环保的训练策略,对实际应用和绿色AI具有重要意义。
—第110篇----
=====
Continual Learning with Embedding Layer Surgery and Task-wise Beam Search using Whisper
🔍 关键词: cs.CL, cs.AI
PDF链接
摘要: 当前的多语种自动语音识别(ASR)模型仅支持世界上一部分语言。持续学习(CL)旨在通过向预训练模型中添加新语言,同时避免对现有语言性能的损失(即灾难性遗忘,CF),来解决这一问题。然而,现有的CL方法忽视了对解码器中标记嵌入查找表的适应,尽管其对CF有显著影响。我们提出了嵌入层手术(Embedding Layer Surgery),为每种新语言创建标记嵌入的独立副本,并在转录对应的新语言时选择其中一个副本替换旧语言的嵌入。不幸的是,这种方法意味着语言识别(LID)错误也会导致错误的ASR嵌入选择。我们的任务级波束搜索(Task-wise Beam Search)允许对这些错误进行自我纠正。通过将Whisper适配到Common Voice中每种未见语言的10小时数据,结果显示,我们的方法将预训练语言的平均词错误率(AWER)从14.2%降低到11.9%,相比经验回放(Experience Replay),且不影响未见语言的AWER。
总结: 本文通过嵌入层手术和任务级波束搜索有效提升了多语种ASR模型的持续学习能力,显著减少了灾难性遗忘现象。
###【arXiv编号】: arXiv:2501.07875v1
###【git】: 无
###【期刊】: 未发表
###【领域】: 计算机科学,人工智能
[推荐指数:4]
推荐理由
该研究在多语种ASR的持续学习领域提出了创新性的嵌入层手术和任务级波束搜索方法,有效减少了灾难性遗忘,展现出较高的实用性和潜在应用价值,尽管在实际部署中可能还需进一步验证其鲁棒性。
=====
—第111篇----
=====
Exploring Gradient Subspaces: Addressing and Overcoming LoRA’s Limitations in Federated Fine-Tuning of Large Language Models
🔍 关键词: 大规模语言模型, 联邦学习, LoRA, 微调, 梯度子空间
PDF Link
摘要: 大规模语言模型(LLMs)在各个领域展示了卓越的能力,特别是在文本和视觉数据的任务泛化方面。虽然微调这些模型可以显著提升其在特定下游任务上的表现,但通常需要高质量的数据,这些数据由于隐私问题无法共享。联邦学习(FL)为无需直接共享数据的协作训练提供了一个有前景的解决方案。然而,许多基于低秩适配(LoRA)的参数高效微调策略在 FL 中面临限制。本文对利用 LoRA 的流行 FL 框架的收敛性和性能保证进行了深入分析,指出由于低秩矩阵的受限子空间学习,LoRA 具有次优性。这一限制阻碍了在联邦环境中有效微调 LLM。通过严谨的理论分析和实证评估,我们证明直接权重平均优于基于 LoRA 的策略,能够为微调模型带来更优的性能。我们全面的比较揭示了 LoRA 方法的低效,强调了直接权重聚合的优势。进一步,我们将分析扩展到在本地训练步骤中使用的基于低秩梯度的优化器,如 GaLore。研究结果表明,GaLore 结合直接权重聚合是一种更有效的方法,超越了诸如 FlexLoRA 和 FFA-LoRA 等联邦 LoRA 方法,适用于文本和图像两种模态。尽管隐私在 FL 讨论中仍然至关重要,本文的重点是评估联邦微调模型的性能结果,并从理论和实证角度评估各种 FL 框架。研究结果建议在 FL 背景下重新评估对 LoRA 的依赖,为更高效的训练方法铺平了道路。
总结: 本文通过理论分析和实验证明,直接权重平均结合 GaLore 优化器在联邦微调大规模语言模型时优于传统 LoRA 方法,从而推动了更高效训练方法的发展。
###【arXiv编号】2410.23111v6
###【领域】计算机科学,人工智能
[推荐指数:4]
推荐理由
本文深入分析了联邦学习中 LoRA 方法的局限性,并通过理论与实验证实了更优的替代策略,具有高度的创新性和实用性,值得学术界关注。
=====
—第112篇----
=====
Random Policy Enables In-Context Reinforcement Learning within Trust Horizons
🔍 关键词: 强化学习, 预训练模型, 状态-动作蒸馏, 自主决策
链接1
摘要: 预训练的基础模型在上下文学习方面表现出色,能够在未在预训练过程中遇到的新任务上实现零样本泛化。在强化学习(RL)的情况下,当基础模型以自回归监督的方式在决策制定问题上进行预训练时,出现了上下文强化学习(ICRL)。然而,当前最先进的ICRL算法,如算法蒸馏、决策预训练变换器和决策重要性变换器,对预训练数据集在源策略、上下文信息和动作标签方面提出了严格的要求。这些算法要么要求最优策略,要么需要在所有预训练环境中具备不同程度的训练良好的行为策略。这大大阻碍了ICRL在现实世界场景中的应用,因为在大量现实世界训练环境中获取最优或训练良好的策略可能是难以实现的。为克服这一挑战,我们引入了一种新方法,称为状态-动作蒸馏(SAD),该方法仅通过随机策略生成有效的预训练数据集。具体来说,SAD通过在信任水平内使用随机策略从整个状态和动作空间中蒸馏出优秀的状态-动作对,选择查询状态和相应的动作标签,然后在预训练期间继承经典的自回归监督机制。据我们所知,这是首个在随机策略和随机上下文下实现有效ICRL的工作。我们还建立了SAD的可信度和性能保证的定量分析。此外,我们在多个流行的ICRL基准环境中的实证结果表明,SAD在离线评估中平均比最佳基线高出236.3%,在线评估中高出135.2%。
总结: 本文提出了一种通过随机策略实现有效上下文强化学习的新方法,显著提升了预训练模型在多种基准环境下的性能。
###【arXiv编号】2410.19982
###【git】无
###【期刊】预印本
###【领域】计算机科学, 人工智能, 强化学习
[推荐指数:4]
推荐理由
该研究通过引入状态-动作蒸馏方法,实现了在随机策略下的有效ICRL,显著提升了模型性能,具有较高的创新性和实用性,适用于实际复杂环境中的强化学习应用。
=====
Short Summary
本文提出了一种通过随机策略实现有效上下文强化学习的新方法,显著提升了预训练模型在多种基准环境下的性能。
—第113篇----
=====
What Makes Cryptic Crosswords Challenging for LLMs?
🔍 关键词: cs.CL, cs.AI
链接1
摘要: 密语填字游戏依赖于常识和解答者在不同层面操控语言的能力,涉及各种类型的文字游戏。之前的研究表明,即使是现代的自然语言处理模型,包括大型语言模型(LLMs),在解决此类谜题时也具有挑战性。然而,关于这些模型在此任务中表现不佳的原因几乎没有研究。在本文中,我们为三种流行的LLMs:Gemma2、LLaMA3和ChatGPT建立了基准结果,显示它们在此任务上的表现仍明显低于人类。我们还探讨了这些模型难以实现卓越性能的原因。我们在https://github.com/bodasadallah/decrypting-crosswords发布了我们的代码和引入的数据集。
总结: 本研究评估了当前大型语言模型在解决密语填字游戏中的表现,并分析了其不足之处。
###【arXiv编号】2412.09012v2
###【git】https://github.com/bodasadallah/decrypting-crosswords
###【期刊】
###【领域】计算机科学
[推荐指数:3]
推荐理由
该研究系统评估了多个大型语言模型在复杂文字游戏中的表现,并提供了公开的代码和数据集,具有一定的创新性和实用价值,但在创新性方面表现一般,因此推荐指数为3。
—第114篇----
GOMA: Proactive Embodied Cooperative Communication via Goal-Oriented Mental Alignment
🔍 关键词: 语言沟通、人类合作、目标导向、心理对齐、规划问题
链接1
摘要: 在人类合作中,语言交流起着至关重要的作用,特别是在合作伙伴只有关于任务、环境和彼此心理状态的不完全信息时。本文提出了一种新颖的合作沟通框架——目标导向心理对齐(GOMA)。GOMA将口头沟通形式化为一个规划问题,旨在减少与目标相关的代理心理状态之间的错位。该方法使具身助手能够通过自然语言主动初始化与人类的口头沟通,从而帮助实现更好的合作。我们在两个具有挑战性的环境中对我们的方法与强基线进行了评估,分别是多人游戏Overcooked和家庭模拟器VirtualHome。实验结果表明,大型语言模型在生成基于社会和物理环境的有意义沟通方面存在困难。相比之下,我们的方法能够成功生成简洁的口头沟通,使具身助手能有效提升合作绩效以及人类用户对助手的感知。
总结: 提出了GOMA框架,通过目标导向的心理对齐,提升人机合作中的主动语言沟通效果。
###【arXiv编号】2403.11075v2
###【git】暂无
###【期刊】暂无
###【领域】人机交互、人工智能、多智能体系统
[推荐指数:4]
推荐理由
GOMA框架通过创新性的目标导向心理对齐方法,有效提升了人机合作中的语言沟通,具有较高的实用性和研究价值,尽管在某些方面还需进一步验证。
—第115篇----
=====
deepTerra – AI Land Classification Made Easy
🔍 关键词: cs.CV, cs.AI, cs.LG
PDF链接
摘要: deepTerra 是一个综合性平台,旨在通过机器学习和卫星图像促进地表特征的分类。该平台包括用于数据收集、图像增强、训练、测试和预测的模块,简化了图像分类任务的整个工作流程。本文详细介绍了 deepTerra 的功能,展示了它在各种研究领域的应用,并讨论了其未来的发展方向。
总结: deepTerra 提供了一个全面的机器学习平台,简化了利用卫星图像进行地表特征分类的流程。
[arXiv编号: 2501.07859v1]
[git]
[期刊]
[领域] 计算机视觉, 人工智能, 机器学习
[推荐指数:4]
推荐理由
deepTerra 通过整合数据处理和机器学习模块,提供了高效的图像分类解决方案,具有较高的创新性和实用性。
—第116篇----
=====
Hierarchical Repository-Level Code Summarization for Business Applications Using Local LLMs
🔍 关键词: 代码摘要, 层次化方法, 本地大型语言模型, 企业应用
PDF Link
摘要: 在大规模软件开发中,理解复杂代码库的功能和意图对于有效的开发和维护至关重要。尽管代码摘要已经被广泛研究,现有方法主要关注较小的代码单元,如函数,并且在处理较大的代码工件如文件和包时存在困难。此外,当前的摘要模型倾向于强调低级别的实现细节,往往忽视了对于真实世界应用至关重要的领域和业务上下文。本文提出了一种针对企业应用的仓库级代码摘要的两步层次化方法。首先,使用语法分析识别较小的代码单元,如函数和变量,并使用本地大型语言模型进行摘要。这些摘要随后被汇总以生成更高级别的文件和包摘要。为了确保摘要基于业务上下文,我们设计了定制的提示,以根据业务应用的领域和问题上下文捕捉代码工件的预期用途。我们在电信领域的业务支持系统(BSS)上评估了我们的方法,结果表明,基于语法分析的层次化摘要提高了覆盖率,而基于业务上下文的摘要增强了生成摘要的相关性。
总结: 该研究提出了一种利用本地大型语言模型进行企业级仓库代码摘要的层次化方法,显著提高了摘要的覆盖率和相关性。
###【arXiv:2501.07857v1】
###【git】 无
###【期刊】 无
###【领域】 计算机科学 - 软件工程, 人工智能
[推荐指数:4]
推荐理由
该论文在代码摘要领域提出了创新性的层次化方法,结合业务上下文提升了摘要的实用性和相关性,具有较高的应用价值和研究潜力。
=====
—第117篇----
=====
State-of-the-Art Transformer Models for Image Super-Resolution: Techniques, Challenges, and Applications
🔍 关键词: 图像超分辨率, 变压器模型, 深度学习, CNN, GAN
链接1
摘要: 图像超分辨率(SR)旨在从其低分辨率对应物恢复高分辨率图像,低分辨率图像受特定降解过程影响。这通过增强细节和视觉质量实现。近年来,基于变压器的方法取得了显著进展,通过实现高质量的重建,超越了之前的深度学习方法如基于CNN和GAN的方法,重新塑造了图像超分辨率。这有效地解决了以前方法的局限性,例如有限的感受野、全局上下文捕捉不足以及在高频细节恢复中的挑战。此外,本文回顾了基于变压器的SR模型的最新趋势和进展,探讨了将变压器与传统网络相结合以平衡全局和局部上下文的各种创新技术和架构。这些新颖的方法经过批判性分析,揭示了有前景但尚未探索的空白和未来研究的潜在方向。包含了多个模型和技术的可视化,以促进对最新趋势的全面理解。本工作旨在为深度学习前沿的研究人员提供结构化的路线图,特别是探索变压器对超分辨率技术的影响。
总结: 本文综述了基于变压器的图像超分辨率最新模型,探讨其技术、挑战和应用,旨在为未来研究提供指导。
###【arXiv编号】2501.07855v1
###【git】
###【期刊】
###【领域】计算机视觉,人工智能,电子技术,机器学习,神经与进化计算
[推荐指数:4]
推荐理由
本文系统地回顾了基于变压器的图像超分辨率技术,具有较高的创新性和实用性,适合相关领域的研究人员参考。
=====
—第118篇----
=====
优化语言模型以提高语法可接受性:微调技术的比较研究
🔍 关键词: 语言模型, 语法可接受性, 微调技术, 计算效率
链接1
摘要: 本研究探讨了使用CoLA数据集对开放预训练变换器(OPT-125M)进行语法可接受性任务的微调(FT)。通过比较基础微调(VFT)、基于模式的微调(PBFT)和参数高效微调技术(PEFT)如低秩适应(LoRA),我们展示了在保持高准确率的同时显著提高了计算效率。实验表明,虽然VFT实现了最高的准确率(81.2%),LoRA通过减少内存使用和迭代时间超过50%提升了FT效率,并提高了PBFT的准确率。尽管上下文蒸馏(CD)在计算效率上表现良好,但其准确率仅约31%。我们的发现有助于通过降低计算门槛来推动大型语言模型(LLM)的普及。
总结: 本文通过比较各种微调技术,提升了语言模型在语法可接受性任务中的计算效率和准确率。
###【arXiv编号】2501.07853v1
###【git】
###【期刊】
###【领域】计算机科学,人工智能
[推荐指数:4]
推荐理由
本文在微调技术的比较研究中展现了较高的创新性和实用性,尤其是在提升大型语言模型的计算效率方面,为相关领域的研究提供了有价值的参考。
—第119篇----
=====
AdaSociety: An Adaptive Environment with Social Structures for Multi-Agent Decision-Making
🔍 关键词: 多智能体系统, 社会结构, 自适应环境, 决策制定, 强化学习
PDF链接
摘要: 传统的交互环境通过固定任务限制了智能体的智能增长。最近,单智能体环境通过基于智能体行为生成新任务来解决这一问题,增强了任务的多样性。我们考虑多智能体环境中的决策制定问题,其中任务进一步受到社会连接的影响,影响奖励和信息获取。然而,现有的多智能体环境缺乏自适应物理环境和社会连接的结合,阻碍了智能行为的学习。为了解决这一问题,我们引入了AdaSociety,一个可定制的多智能体环境,具有扩展的状态和动作空间,以及明确且可更改的社会结构。随着智能体的进展,环境会自适应地生成带有社会结构的新任务供智能体执行。在AdaSociety中,我们开发了三个展示不同社会结构和任务的迷你游戏。初步结果表明,特定的社会结构可以促进个体和集体的利益,尽管当前的强化学习和基于大型语言模型的算法在利用社会结构提升性能方面效果有限。总体而言,AdaSociety作为一个有价值的研究平台,用于探索多样化物理和社会环境中的智能。代码可在 GitHub 上获取。
总结: AdaSociety为多智能体决策制定提供了一个自适应且具有社会结构的研究平台,但现有算法尚未充分利用其潜力。
###【arXiv编号】2411.03865v4
###【git】https://github.com/bigai-ai/AdaSociety
###【期刊】
###【领域】多智能体系统, 人工智能, 游戏理论, 机器学习, 社会信息学
[推荐指数:4]
推荐理由
AdaSociety通过结合自适应物理环境和社会结构,提供了一个创新的多智能体研究平台,有助于深入理解智能体在复杂社会互动中的行为表现,尽管现有算法在应用方面仍有提升空间。
—第120篇----
=====
Unveiling Provider Bias in Large Language Models for Code Generation
🔍 关键词: cs.SE, cs.AI, cs.CR
链接1
摘要: 大型语言模型(LLMs)已经成为新的推荐引擎,在能力和范围上都超过了传统方法,特别是在代码生成应用方面。我们的研究揭示了LLMs中的一种新型提供商偏见,即在没有明确输入提示的情况下,这些模型在其推荐中系统性地偏好特定提供商的服务(例如,偏爱Google Cloud而非Microsoft Azure)。这种偏见对市场动态和社会平衡具有重大影响,可能促进数字垄断。它还可能欺骗用户并违反他们的期望,导致各种后果。本文首次全面实证研究了LLM代码生成中的提供商偏见。我们开发了一种系统的方法,包括用于数据集生成的自动化流程,涵盖了6个不同的编码任务类别和30个现实世界的应用场景。我们的分析涵盖了七种最先进模型的超过60万个LLM生成的响应,使用了约5亿个标记(相当于5000美元以上的计算成本)。该研究评估了生成的代码片段及其所嵌入的服务提供商选择,以量化提供商偏见。此外,我们还对七种去偏提示技术进行了比较分析,以评估其在减轻这些偏见方面的有效性。我们的发现表明,LLMs表现出显著的提供商偏好,主要偏爱来自Google和Amazon的服务,并且可以在未经用户请求的情况下自主修改输入代码以纳入其首选提供商。值得注意的是,我们观察到在对话上下文中推荐的提供商与生成代码中实现的提供商之间存在差异。完整的数据集和分析结果可在我们的仓库中获得。
总结: 本文首次实证研究了大语言模型在代码生成中对特定服务提供商的系统性偏好,并分析了可能的市场和社会影响。
###【arXiv编号】2501.07849v1
###【git】
###【期刊】
###【领域】计算机科学 - 软件工程, 人工智能, 计算资源
[推荐指数:4]
推荐理由
本文揭示了大型语言模型在代码生成中的重要偏见问题,对理解AI模型的公正性和市场影响具有高度创新性和实用价值,尽管创新性较高,但应用范围较为专业,因此给予4分推荐。
—第121篇----
=====
Mode-conditioned music learning and composition: a spiking neural network inspired by neuroscience and psychology
🔍 关键词: cs.SD, cs.AI, eess.AS, q-bio.NC
PDF链接
摘要: 音乐模式是建立音高组织框架和决定和声关系的最关键元素之一。以往的工作通常采用简化和僵硬的对齐方法,忽视了模式的多样性。然而,与人工智能模型不同,人类拥有感知各种模式和调性的认知机制。在本文中,我们提出了一种受大脑机制和心理学理论启发的尖峰神经网络,用于表示音乐模式和调性,最终生成包含调性特征的音乐作品。具体贡献如下:1)该模型设计了多个协作的子系统,受相应大脑区域的结构和功能启发;2)我们结合了神经电路进化学习机制,使网络能够学习和生成与模式相关的音乐特征,反映了人类音乐感知中的认知过程;3)结果表明,该模型显示出与音乐心理学领域最重要的调性感知模型之一的Krumhansl-Schmuckler模型非常相似的连接框架;4)实验表明,该模型能够生成具有给定模式和调性特征的音乐作品。此外,对生成作品的定量评估显示,生成的音乐作品既具有调性特征,又具备了生成多样化和音乐内容所需的旋律适应性。通过结合来自神经科学、心理学和音乐理论的洞见与先进的神经网络架构,我们的研究旨在创建一个不仅能够学习和生成音乐,还能弥合人类认知与人工智能之间差距的系统。
总结: 本研究提出了一种受神经科学和心理学启发的尖峰神经网络,用于学习和生成具有调性特征的音乐作品,展示了人类认知机制与人工智能的结合潜力。
###【arXiv:2411.14773v2】
###【期刊】
###【领域】
计算机科学,人工智能,音频与语音处理,神经计算