英伟达发布近百亿级Mamba语言模型研究:Transformer真的更好吗?线性回归中的缩放律:计算、参数和数据....
原创 一只小鸭子,咿呀 AI for Research 2024-06-13 19:54 广东
前言:论文可以让你更快地了解最新研究进展,掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要,尤其是在快速发展的学科领域,下面小编带你来看大模型最近的研究成果。
1. 基于Mamba的语言模型实证研究
标题:An Empirical Study of Mamba-based Language Models
机构:英伟达、威斯康星大学、普林斯顿大学
关键词:Mamba、SSM、Transformer、混合架构
作者:Roger Waleffe, Wonmin Byeon, Duncan Riach
分析:本文通过对比80亿参数的Mamba、Mamba-2和Transformer模型在相同数据集上的表现,探讨了SSM架构在大规模训练下的优势与不足。研究发现,纯SSM模型在多数任务上能与Transformer媲美或超越,但在需要强复制或上下文学习能力的任务上表现不佳。此外,混合架构Mamba-2-Hybrid在所有评估任务中优于Transformer,并预计在推理时生成令牌速度快8倍。论文还验证了长上下文能力,并公开了训练模型所需的代码和检查点。
地址:https://arxiv.org/pdf/2406.07887
2. 如果我们用LLaMA-3重标注数十亿网络图像会怎样?
标题:What If We Recaption Billions of Web Images with LLaMA-3?
机构:德克萨斯大学、UC圣克鲁斯分校
关键词:LLaMA-3、图像重标注、多模态、文本到图像生成
作者:Xianhang Li, Haoqin Tu, Mude Hui
分析:这篇论文探讨了利用开源的LLaMA-3大语言模型对13亿网络图像进行重标注的过程及其效果。研究团队首先微调了基于LLaMA-3的LVA-1.5模型,然后使用该模型对DataComp-1B数据集中的图像进行重标注,生成了名为Recap-DataComp-1B的新数据集。实验结果显示,这一改进的数据集显著提升了视觉-语言模型的训练效果,特别是在文本到图像生成任务中,生成的图像与用户文本指令的对齐度有了显著提高,尤其是在处理复杂查询时。此外,对于如CLIP这样的判别模型,其在跨模态检索任务中的零样本性能也得到了增强。
地址:https://arxiv.org/pdf/2406.08478
代码:https://www.haqtu.me/Recap-Datacomp-1B/
3. 线性回归中的缩放律:计算、参数和数据
标题:Scaling Laws in Linear Regression: Compute, Parameters, and Data
机构:哈佛大学、普林斯顿大学、UC伯克利分校
关键词:神经缩放律、线性回归、随机梯度下降、隐式正则化
作者:Licong Lin, Jingfeng Wu, Sham M. Kakade
分析:本文探讨了大规模深度学习模型中常见的神经缩放律,即随着模型和数据规模的增加,测试误差以多项式形式改善。传统观点认为测试误差由近似误差、偏差误差和方差误差组成,其中方差误差随模型大小增加。这与神经缩放律的一般形式相矛盾,后者预测增加模型大小会单调改善性能。文章通过无限维线性回归模型,研究了缩放律的理论基础。具体地,考虑了一个具有$M$参数的线性模型,通过一次通过随机梯度下降(SGD)训练$N$数据。假设最优参数满足高斯先验,数据协方差矩阵具有度为$a>1$的幂律谱,证明了可减少的测试误差部分为$\Theta(M^{-(a-1)} + N^{-(a-1)/a})$。由于SGD的隐式正则化,方差误差被其他误差所主导,从而从界限中消失。理论与经验神经缩放律一致,并通过数值模拟得到验证。
地址:https://arxiv.org/pdf/2406.08466
4. Collective Constitutional AI:使语言模型与公众输入对齐
标题:Collective Constitutional AI: Aligning a Language Model with Public Input
机构:Anthropic
关键词:集体宪法人工智能、公众参与、模型偏见、指令微调
作者:Saffron Huang, Divya Siddarth, Liane Lovitt
分析:本文提出了一种名为集体宪法人工智能(CCAI)的多阶段方法,旨在让公众参与决定影响他们的语言模型(LM)的行为。该方法从确定目标人群开始,收集原则,到训练和评估模型,展示了如何将公众意见整合到LM中。通过与基于开发者确立原则训练的基准模型对比,CCAI训练的模型在九个社会维度上的偏见更低,同时在语言、数学和有益无害评估上保持同等性能。定性比较显示,CCAI模型在处理争议话题时更倾向于积极重构问题,而非简单拒绝回答。这表明公众参与的LM开发是一条有前景且可行的路径。
地址:https://arxiv.org/pdf/2406.07814
5. Magpie:通过提示对齐的LLMs从零开始合成对齐数据
标题:Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing
机构:华盛顿大学、艾伦AI研究所
关键词:对齐数据合成、指令微调、大型语言模型、数据集构建
作者:Zhangchen Xu, Fengqing Jiang, Luyao Niu
分析:本文提出了一种名为Magpie的新方法,用于从对齐的大型语言模型(如Llama-3-Instruct)中直接合成大规模的高质量指令数据。该方法利用了这些模型的自回归特性,通过仅输入左侧模板来生成用户查询及其响应。研究结果显示,使用Magpie生成的数据进行微调的模型在某些任务上与官方模型表现相当,甚至在某些对齐基准测试中超越了使用其他公共数据集的模型。
地址:https://arxiv.org/pdf/2406.08464
6. OmniCorpus:一个包含100亿级图像与文本交错的多模态统一语料库
标题:OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
机构:南京大学、复旦大学、清华大学
关键词:多模态、大规模数据集、图像-文本交错、数据质量
作者:Qingyun Li, Zhe Chen, Weiyun Wang
分析:本文介绍了OmniCorpus,一个规模达到10亿级的图像与文本交错数据集。该数据集通过高效的数据引擎筛选和提取了大量高质量文档,包含86亿张图像和16960亿文本令牌。与现有数据集相比,OmniCorpus不仅规模更大,数据质量保持良好,而且来源更加多样,涵盖了英语和非英语网站以及以视频为中心的网站。此外,该数据集格式灵活,可轻松转换为纯文本语料库或图像-文本对。通过综合分析和实验,验证了该数据集的质量、可用性和有效性,为未来的多模态模型研究提供了坚实的基础。
地址:https://arxiv.org/pdf/2406.08418
代码:https://github.com/OpenGVLab/OmniCorpus
7. Memory Is All You Need:计算内存架构加速大模型推理综述
标题:Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference
机构:东京大学、斯坦福大学、慕尼黑工业大学
关键词:计算内存、大型语言模型、推理加速、能源效率
作者:Christopher Wolters, Xiaoxuan Yang, Ulf Schlichtmann
分析:这篇论文主要探讨了计算内存(CIM)技术如何通过在内存中直接进行模拟计算来加速人工智能推理,从而减少延迟和功耗。随着大型语言模型(LLMs)的计算和内存需求呈指数级增长,传统的计算和内存能力已无法满足需求,尤其是在内存访问成本显著高于计算的情况下。CIM技术通过紧密集成内存和计算元素,消除了冯·诺依曼瓶颈,减少了数据移动,提高了能源效率。论文回顾了基于Transform的模型和各种CIM架构,并探讨了它们如何应对现代AI计算系统的紧迫挑战。
地址:https://arxiv.org/pdf/2406.08413
8. Transformer中位置编码初始化对关系推理的重要性
标题:The Importance of Positional Encoding Initialization in Transformers for Relational Reasoning
机构:IBM研究院
关键词:位置编码、关系推理、Transformer、初始化
作者:Takuya Ito, Luca Cocchi, Tim Klinger
分析:本文研究了Transformer模型中位置编码(PE)对关系推理任务的重要性。研究发现,可学习的位置编码在关系推理任务中优于其他常见的位置编码方法,如绝对位置编码、相对位置编码和旋转位置编码等。此外,论文指出位置编码的初始化方式对其学习到的表示和下游泛化性能有显著影响。具体而言,从小范数分布初始化的可学习位置编码能够揭示真实位置信息,对噪声输入具有泛化能力,并产生与人类表现一致的行为模式。这些发现强调了在关系推理任务中学习高性能和鲁棒位置编码的重要性,特别是在真实位置信息未提供或未知的情况下。
地址:https://arxiv.org/pdf/2406.08272
9. REAL Sampling:通过渐近熵提升开放式生成的真实性和多样性
标题:REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy
机构:Amazon
关键词:REAL采样、渐近熵、真实性、多样性
作者:Haw-Shiuan Chang, Nanyun Peng, Mohit Bansal
分析:本文提出了一种名为REAL(Residual Entropy from Asymptotic Line)采样的解码方法,旨在解决大型语言模型(LLMs)在生成文本时面临的真实性和多样性之间的权衡问题。REAL采样通过预测一个动态的p阈值来优化核采样(top-p sampling),当模型可能产生幻觉时降低p阈值以增强真实性,反之则提高p阈值以增加多样性。为此,研究者构建了一个Token级幻觉预测(THF)模型,通过外推不同大小LLMs的下一词熵来预测下一词的渐近熵(即固有不确定性)。实验结果显示,REAL采样在FactualityPrompts基准测试中显著提高了7B LLMs的真实性和多样性,并通过结合对比解码,超越了9种采样方法,生成的文本比贪婪采样更真实,比p=0.5的核采样更多样。
地址:https://arxiv.org/pdf/2406.07735
10. 利用大模型进行网络爬虫
标题:Leveraging Large Language Models for Web Scraping
关键词:大型语言模型、数据提取、RAG模型、知识检索
作者:Aman Ahluwalia, Suhrud Wani
分析:本文探讨了如何利用大型语言模型(LLMs)进行高效的数据提取。研究指出,尽管LLMs在模仿人类任务和提高生产力方面表现出色,但直接用于数据提取时存在局限性,主要是因为它们更注重流畅性而非事实准确性,并且难以操作特定信息。为此,本研究结合了预训练LLMs的知识表示能力和RAG模型的目标信息访问能力,开发了一种适用于语言生成的RAG模型的通用准确数据爬取方法。通过使用带有潜在知识检索器的预训练语言模型,该方法能够从大型语料库中检索和关注文档,从而以更模块化和可解释的方式捕捉知识。研究还深入分析了RAG模型在三个任务上的能力:HTML元素的语义分类、HTML文本的分块以促进有效理解和不同LLMs及排名算法的比较。研究表明,通过添加有效的分块、搜索和排名算法,预训练于标准自然语言的LLMs可以成为提取复杂数据的高效工具。未来的研究方向包括解决来源追踪和动态知识更新在提出的RAG基础数据提取框架中的挑战。
地址:https://arxiv.org/pdf/2406.08246
11. 数据工程管道工具综述
标题:A Survey of Pipeline Tools for Data Engineering
关键词:数据工程、管道工具、数据整理、机器学习
作者:Anthony Mbata, Yaji Sripada, Mingjun Zhong
分析:本文综述了数据工程中使用的多种管道工具,探讨了这些工具如何帮助数据科学家解决数据整理问题,并完成从数据摄取到数据准备,再到作为机器学习输入的数据工程任务。文章分析了不同类型的管道工具,包括ETL/ELT、数据集成、摄取和转换、数据管道编排和任务管理,以及机器学习管道。通过案例研究,文章展示了这些工具在实际数据工程中的应用和用户经验,以及如何使用这些工具为机器学习准备数据。
地址:https://arxiv.org/pdf/2406.08335
12. 将价值迭代网络扩展至5000层以实现极端长期规划
标题:Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning
机构:新加坡国立大学
关键词:价值迭代网络、动态转移核、长期规划、梯度消失问题
作者:Yuhui Wang, Qingyuan Wu, Weida Li
分析:本文主要探讨了价值迭代网络(VIN)在强化学习中进行长期大规模规划任务时的局限性,特别是在处理如$100\times 100$迷宫这类需要数千规划步骤的任务。文章指出,VIN的不足主要源于潜在MDP的表示能力和规划模块的深度。为此,研究者通过引入动态转移核来增强潜在MDP的表示能力,并设计了一种“自适应高速损失”来构建跳跃连接,以改善梯度流动,从而缓解梯度消失问题。实验结果表明,新提出的动态转移VIN(DT-VIN)能够轻松扩展至5000层,并有效解决了上述挑战性任务。
地址:https://arxiv.org/pdf/2406.08404
13. OPTune:高效在线偏好调整
标题:OPTune: Efficient Online Preference Tuning
机构:马里兰大学
关键词:在线偏好调整、高效训练、LLMs对齐、数据探索
作者:Lichang Chen, Jiuhai Chen, Chenxi Liu
分析:本文提出了一种名为OPTune的新策略,用于高效地进行在线偏好调整,以优化大型语言模型(LLMs)与人类偏好的对齐。与传统的离线RLHF方法不同,OPTune通过动态采样信息丰富的响应来进行实时偏好对齐,而不依赖于人工筛选或预先收集的教师响应。该方法在数据生成过程中,仅选择那些能够提供更高质量训练信号的提示,并在训练目标中根据每个生成响应的效用进行加权,以集中学习最有帮助的样本。实验表明,使用OPTune的LLMs不仅保持了标准偏好调整的指令遵循优势,而且训练速度提高了1.27-1.56倍。
地址:https://arxiv.org/pdf/2406.07657
14. 发现大模型偏好优化算法及其应用
标题:Discovering Preference Optimization Algorithms with and for Large Language Models
机构:剑桥大学、牛津大学
关键词:离线偏好优化、大型语言模型、自动算法发现、性能提升
作者:Chris Lu, Samuel Holt, Claudio Fanconi
分析:本文探讨了离线偏好优化在提升和控制大型语言模型输出质量中的关键作用。传统的偏好优化依赖于人工设计的凸损失函数,这种方法受限于人类的创造力,未能充分探索潜在的损失函数空间。为此,研究者采用了一种由大型语言模型驱动的方法,自动发现新的偏好优化算法,无需专家干预。通过迭代提示大型语言模型,基于先前评估的性能指标提出并实施新的偏好优化损失函数,最终发现了一种名为Discovered Preference Optimization (DiscoPOP)的新算法,该算法结合了逻辑和指数损失,实验证明其在未见任务上表现出色。
地址:https://arxiv.org/pdf/2406.08414
15. UICoder:通过自动化反馈微调大模型以生成用户界面代码
标题:UICoder: Finetuning Large Language Models to Generate User Interface Code through Automated Feedback
机构:Apple、卡内基梅隆大学
关键词:自动化反馈、UI代码生成、多模态模型
作者:Jason Wu, Eldon Schoop, Alan Leung
分析:这篇论文探讨了如何通过自动化反馈机制改进大型语言模型(LLMs)生成高质量用户界面(UI)代码的能力。传统方法依赖昂贵的人工反馈或专有模型的蒸馏,而本文提出的方法利用编译器和多模态模型来自动化地过滤、评分和去重数据,从而形成一个精炼的高质量数据集。通过在这个数据集上对原始LLM进行微调,论文展示了这种方法能够显著提升模型生成UI代码的准确性和设计相关性,性能超越了其他可下载的基准模型,并接近更大型的专有模型。
地址:https://arxiv.org/pdf/2406.07739
16. MambaLRP:解释选择性状态空间序列模型
标题:MambaLRP: Explaining Selective State Space Sequence Models
机构:韩国高丽大学、马克斯·普朗克计算机科学研究所、Google DeepMind
关键词:Mamba模型、层级相关性传播、模型解释性、序列建模
作者:Farnoush Rezaei Jafari, Grégoire Montavon, Klaus-Robert Müller
分析:这篇论文主要探讨了如何增强Mamba模型的透明度,这是一种使用选择性状态空间序列模型的近期序列建模方法。论文通过引入层级相关性传播(LRP)来解释Mamba架构,解决了模型解释性不足的问题。论文提出了一种名为MambaLRP的新算法,该算法在LRP框架内确保了通过Mamba架构组件的更稳定和可靠的相关性传播。该方法不仅理论健全,而且在多种模型和数据集上实现了最先进的解释性能,同时促进了Mamba架构的深入检查,揭示了各种偏差并评估了其重要性。
地址:https://arxiv.org/pdf/2406.07592
17. State Soup:上下文技能学习、检索与混合
标题:State Soup: In-Context Skill Learning, Retrieval and Mixing
机构:IDEA、Google、Google DeepMind
关键词:循环神经网络、状态插值、上下文学习、模型合并
作者:Maciej Pióro, Maciej Wołczyk, Razvan Pascanu
分析:这篇论文探讨了一种新型门控线性循环神经网络在序列建模问题上的应用,并特别关注了这些状态序列模型的一个新优势:内部状态可以作为任务向量被存储、检索和线性组合,利用循环的线性特性。研究基于Mamba-2.8b预训练的循环模型,初步证明了简单的线性状态插值方法能够提升下一个令牌的困惑度以及下游上下文学习任务的性能。
地址:https://arxiv.org/pdf/2406.08423
18. HOI-Swap:具有手-物体交互意识的视频中物体交换
标题:HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness
机构:FAIR、德克萨斯大学
关键词:视频编辑、手-物体交互、扩散模型、自监督学习
作者:Zihui Xue, Mi Luo, Changan Chen
分析:本文研究了在视频中精确交换被手交互的物体的问题,用户提供一个参考物体图像。尽管扩散模型在视频编辑方面取得了巨大进步,但它们在处理手-物体交互(HOI)的复杂性方面仍显不足,尤其是在物体交换导致物体形状或功能改变时。为了填补这一空白,本文提出了HOI-Swap,一种基于扩散的自监督视频编辑框架,分为两个阶段:第一阶段关注单帧内的物体交换和HOI意识;第二阶段将单帧编辑扩展到整个序列,通过基于采样运动点的序列变形和基于变形序列的视频生成条件,实现可控的运动对齐。实验证明,HOI-Swap在高质量视频编辑和真实HOI方面显著优于现有方法。
地址:https://arxiv.org/pdf/2406.07754
19. 超越LLaVA-HD:深入高分辨率大型多模态模型
标题:Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models
机构:腾讯、阿里巴巴集团、中国科学院大学
关键词:高分辨率、多模态模型、局部压缩、混合适配器
作者:Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu
分析:本文探讨了大型多模态模型中高分辨率视觉感知的重要性及其面临的挑战。现有方法通过增加局部图像块的数量来提高分辨率,导致计算成本激增且可能削弱全局上下文的理解。论文提出了一种新的框架和优化策略,通过混合适配器从全局视角提取上下文信息,并引入可学习的查询嵌入来减少图像令牌数量,通过相似性选择器进一步筛选关键令牌。实验表明,使用更少但信息量更大的局部图像令牌能提升性能。此外,论文提倡交替训练策略以平衡全局和局部学习,并引入了一个高要求细节的新数据集来训练局部压缩层。
地址:https://arxiv.org/pdf/2406.08487
20. PixMamba:利用状态空间模型在双层架构中进行水下图像增强
标题:PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement
机构:微软
关键词:水下图像增强、状态空间模型、双层架构、图像处理
作者:Wei-Tung Lin, Yong-Xiang Lin, Jyun-Wei Chen
分析:这篇论文介绍了PixMamba,一种新型的水下图像增强架构,旨在解决现有深度学习方法在处理水下图像时面临的高计算成本和全局建模不足的问题。PixMamba通过利用状态空间模型(SSMs)进行高效的全局依赖建模,与传统的卷积神经网络(CNNs)和Transform网络相比,能够更有效地捕捉全局上下文信息,同时保持计算效率。论文提出的双层策略包括用于重建增强图像特征的块级Efficient Mamba Net(EMNet)和确保精细特征捕捉及增强图像全局一致性的像素级PixMamba Net(PixNet)。PixMamba在多个水下图像数据集上实现了最先进的性能,并提供了视觉上更优越的结果。
地址:https://arxiv.org/pdf/2406.08444
代码:https://github.com/weitunglin/pixmamba
21. VALL-E R:通过单调对齐实现鲁棒高效的零样本文本到语音合成
标题:VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment
机构:微软、上海交通大学
关键词:零样本TTS、单调对齐、编解码器合并、鲁棒性
作者:Bing Han, Long Zhou, Shujie Liu
分析:本文介绍了VALL-E R系统,一种基于VALL-E的鲁棒高效零样本文本到语音合成系统。该系统通过引入音素单调对齐策略,加强了音素与声学序列之间的联系,确保了更精确的对齐。同时,采用编解码器合并方法降低浅层量化层的离散代码采样率,加速解码速度同时保持语音输出质量。VALL-E R系统在控制音素方面表现出强大的鲁棒性,并显著减少了自回归步骤,推理时间减少了60%以上。
地址:https://arxiv.org/pdf/2406.07855
代码:https://aka.ms/valler
22. MMWorld:面向视频中多学科多方面世界模型评估
标题:MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
机构:微软、UC圣克鲁斯分校、UC圣塔芭芭拉分校
关键词:多模态视频理解、世界模型评估、多学科、模型性能
作者:Xuehai He, Weixi Feng, Kaizhi Zheng
分析:本文介绍了MMWorld,一个用于评估多模态语言模型(MLLMs)在视频理解中表现的新基准。MMWorld旨在通过视频这一包含丰富现实世界动态和因果关系的媒介,评估模型的世界模型能力。该基准覆盖了七个广泛学科和69个子学科,包含1,910个视频和6,627个问答对。论文通过对比分析包括GPT-4V在内的12个MLLMs模型,发现现有模型在MMWorld上的表现不佳,揭示了改进空间。此外,论文还进行了模型与人类技能差异的消融研究。
地址:https://arxiv.org/pdf/2406.08407
23. FontStudio:用于连贯一致字体效果生成的形状自适应扩散模型
标题:FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
机构:微软
关键词:形状自适应、扩散模型、字体效果生成、效果转移
作者:Xinzhi Mu, Li Chen, Bohan Chen
分析:这篇论文主要探讨了如何利用现代基于扩散的文本到图像生成模型来生成多语言字体的效果,这是一个新颖且更具挑战性的任务。与传统关注艺术排版的多数研究不同,本研究专注于在字体形状的限定区域内生成连贯且一致的视觉效果。为此,论文提出了一种新的形状自适应扩散模型,该模型能够理解给定的形状,并在不规则画布内策略性地规划像素分布。此外,还开发了一种无需训练的形状自适应效果转移方法,用于将生成的参考字母的纹理转移到其他字母上。
地址:https://arxiv.org/pdf/2406.08392
24. ORES-Inspect:维基百科机器学习审计的技术探针
标题:ORES-Inspect: A technology probe for machine learning audits on enwiki
机构:微软研究院、宾夕法尼亚大学
关键词:机器学习审计、维基百科、模型评估、开源工具
作者:Zachary Levonian, Lauren Hagen, Lu Li
分析:本文介绍了ORES-Inspect,一个开源的网页工具,旨在帮助维基百科的编辑者了解和审计ORES编辑质量模型的性能。该工具是为了应对审计机器学习模型在维基百科上的应用所面临的挑战,特别是考虑到不同利益相关者的多样性优先级和模型效能证据的技术复杂性。通过ORES-Inspect,研究者探索了编辑者如何思考和执行对维基百科上众多机器学习模型的审计。
地址:https://arxiv.org/pdf/2406.08453
25. 2024年IEEE SaTML大模型夺旗竞赛的数据集与经验教训
标题:Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition
机构:微软、纽约大学、苏黎世联邦理工学院
关键词:大型语言模型、安全风险、防御措施、数据集
作者:Edoardo Debenedetti, Javier Rando, Daniel Paleka
分析:本文主要探讨了大型语言模型系统面临的安全风险,特别是恶意构造的消息可能导致的系统指令被篡改或隐私数据泄露的问题。为此,作者在IEEE SaTML 2024组织了一场夺旗竞赛,竞赛分为两阶段:第一阶段是开发防御措施以防止秘密泄露,第二阶段则是尝试从其他团队提出的防御中提取秘密。研究发现,所有防御措施至少被绕过一次,凸显了设计有效防御的难度及对进一步研究的必要性。此外,本文还提供了一个包含超过137,000次多轮攻击对话的数据集,并开放了竞赛平台以促进相关研究。
地址:https://arxiv.org/pdf/2406.07954
26. ICE-G: 图像条件下的3D高斯溅射编辑
标题:ICE-G: Image Conditional Editing of 3D Gaussian Splats
机构:谷歌研究院、乔治亚理工学院、Stability AI
关键词:3D模型编辑、高斯溅射、语义对应、风格转移
作者:Vishnu Jaganathan, Hannah Hanyun Huang, Muhammad Zubair Irshad
分析:这篇论文介绍了一种新颖的3D模型编辑技术,该技术能够快速地从单一参考视角编辑3D模型。首先,该技术对编辑图像进行分割,并使用DINO特征在选定的分割数据集视图之间匹配语义对应区域。然后,可以从编辑图像的特定区域应用颜色或纹理变化到其他视图,以语义上合理的方式自动进行。这些编辑后的视图作为更新后的数据集,进一步训练和重新风格化3D场景,最终得到编辑后的3D模型。该框架支持多种编辑任务,如手动局部编辑、基于对应的风格转移以及从多个示例图像中结合不同风格。论文展示了该方法在提供精细编辑控制的同时,能够产生更高质量的结果。
地址:https://arxiv.org/pdf/2406.08488
27. ConMe: 重新思考现代视觉语言模型组合推理的评估
标题:ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs
机构:麻省理工学院、IBM研究院、UC伯克利分校
关键词:组合推理、视觉语言模型、评估基准、数据生成
作者:Irene Huang, Wei Lin, M. Jehanzeb Mirza
分析:这篇论文主要探讨了现代视觉语言模型(VLMs)在组合推理(CR)任务上的表现和评估方法。论文指出,现有的CR评估基准可能不足以推动VLMs的极限,因为它们依赖于仅由大型语言模型(LLM)生成的负面文本。这种生成方式导致负样本要么与VLMs学习的自然语言分布不符,要么在图像上下文中显得不合理。为了解决这一问题,论文提出了ConMe,一个组合推理的新基准和一个利用VLMs生成‘困难CR问答’的数据生成流程。通过让VLMs相互对话以共同揭示其弱点,该流程自动生成、评估和选择具有挑战性的组合推理问题,从而建立了一个强大的CR评估基准。
地址:https://arxiv.org/pdf/2406.08164
28. IndirectRequests:通过合成生成间接用户请求使任务导向对话数据集更自然
标题:IndirectRequests: Making Task-Oriented Dialogue Datasets More Natural by Synthetically Generating Indirect User Requests
机构:佛罗里达大学、Amazon
关键词:间接用户请求、自然语言理解、对话状态跟踪、数据集
作者:Amogh Mannekote, Jinseok Nam, Ziming Li
分析:这篇论文探讨了现有任务导向对话数据集的局限性,即它们往往通过机器对机器的方式或基于模板的任务描述收集,导致生成的对话与自然人类对话中的间接表达方式存在显著差异。论文提出了一种基于大型语言模型(LLM)的管道,用于自动生成特定领域的现实且高质量的间接用户请求(IURs),旨在支持自然语言理解(NLU)和对话状态跟踪(DST)的研究。研究结果表明,虽然大型模型如GPT-3.5和GPT-4能生成高质量的IURs,但使用小型模型达到相似质量较为困难。论文还发布了一个名为IndirectRequests的数据集,该数据集超越了初始的Schema-Guided Dialog(SGD)数据集,提供了一个更具挑战性的测试平台,用于评估NLU和DST模型在自然环境下的表现。
地址:https://arxiv.org/pdf/2406.07794
29. VisionLLM v2:面向数百种视觉-语言任务的端到端通用多模态大模型
标题:VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks
机构:香港大学、清华大学、南京大学
关键词:多模态、视觉问答、超级链接、端到端训练
作者:Jiannan Wu, Muyan Zhong, Sen Xing
分析:本文介绍了VisionLLM v2,这是一个端到端的多模态大型语言模型,它在一个框架内统一了视觉感知、理解和生成。与传统的仅限于文本输出的多模态模型不同,VisionLLM v2的应用范围显著扩大,不仅在传统的视觉问答(VQA)任务中表现出色,还能处理开放式、跨领域的视觉任务,如物体定位、姿态估计、图像生成和编辑。为此,作者提出了一种名为“超级链接”的新信息传输机制,作为连接多模态模型与特定任务解码器的中介,有效解决了多任务场景中的训练冲突。此外,为了支持多样化的任务,作者精心收集并整理了来自数百个公共视觉和视觉-语言任务的训练数据,使模型能够通过一组共享参数,在不同的用户提示下联合训练并泛化到这些任务上,性能与特定任务模型相当。
地址:https://arxiv.org/pdf/2406.08394
30. DocSynthv2:一种实用的自回归文档生成建模
标题:DocSynthv2: A Practical Autoregressive Modeling for Document Generation
机构:Adobe Research
关键词:文档生成、自回归模型、布局与文本、自动化设计
作者:Sanket Biswas, Rajiv Jain, Vlad I. Morariu
分析:本文探讨了文档生成的复杂挑战,不仅包括布局还涉及内容。提出了一种名为DocSynthv2的新方法,这是一种结合了布局和文本提示的自回归结构化模型。该模型通过关注文档内结构元素与文本内容之间的关系,旨在生成连贯且上下文相关的文档,无需依赖视觉组件。通过在专门为新任务策划的基准上进行实验研究,证明了该模型在结合布局和文本信息方面提高了文档生成质量和相关性,为文档创建和自动化设计研究开辟了新途径。
地址:https://arxiv.org/pdf/2406.08354
31. Real2Code:通过代码生成重构关节对象
标题:Real2Code: Reconstruct Articulated Objects via Code Generation
机构:斯坦福大学、哥伦比亚大学
关键词:关节对象重建、代码生成、多模态、预训练语言模型
地址:https://arxiv.org/pdf/2406.08474
32. TasTe:通过自我反思教授大模型翻译
标题:TasTe: Teaching Large Language Models to Translate through Self-Reflection
机构:腾讯
关键词:自我反思、机器翻译、大型语言模型、指令微调
地址:https://arxiv.org/pdf/2406.08434
代码:https://github.com/YutongWang1216/ReflectionLLMMT
33. MobileAgentBench:一个高效且用户友好的移动LLM代理基准
标题:MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents
机构:东北大学、香港大学、密歇根大学
关键词:移动代理、性能评估、开源应用、自动化任务管理
地址:https://arxiv.org/pdf/2406.08184
代码:https://MobileAgentBench.github.io,
34. 神经算子预训练策略
标题:Strategies for Pretraining Neural Operators
机构:卡内基梅隆大学
关键词:神经算子、预训练、偏微分方程、数据增强
地址:https://arxiv.org/pdf/2406.08473
35. 将多模态大模型与动作结合
标题:Grounding Multimodal Large Language Models in Actions
机构:Apple、佐治亚理工学院
关键词:多模态大型语言模型、动作空间适配器、实体AI、性能优化
地址:https://arxiv.org/pdf/2406.07904
36. SciRIFF:提升语言模型在科学文献中指令遵循能力的资源
标题:SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature
机构:西北大学、华盛顿大学、希伯来大学
关键词:科学文献理解、指令遵循、模型评估
地址:https://arxiv.org/pdf/2406.07835
37. OLMES:语言模型评估的标准
标题:OLMES: A Standard for Language Model Evaluations
机构:华盛顿大学、艾伦AI研究所
关键词:语言模型评估、评估标准、可复现性、模型比较
地址:https://arxiv.org/pdf/2406.08446
38. Diffusion Soup:文本到图像扩散模型的模型合并方法
标题:Diffusion Soup: Model Merging for Text-to-Image Diffusion Models
机构:Amazon、AWS AI Labs
关键词:模型合并、持续学习、零样本风格混合、反记忆化
地址:https://arxiv.org/pdf/2406.08431
39. TokSing:基于离散令牌的歌声合成
标题:TokSing: Singing Voice Synthesis based on Discrete Tokens
机构:中国人民大学、腾讯AI实验室、卡内基梅隆大学
关键词:歌声合成、离散令牌、旋律增强、音乐编码器
地址:https://arxiv.org/pdf/2406.08416
40. Chemistry3D:化学实验机器人交互基准
标题:Chemistry3D: Robotic Interaction Benchmark for Chemistry Experiments
机构:清华大学、武汉大学、华南理工大学
关键词:化学实验、机器人交互、模拟平台、实时可视化
地址:https://arxiv.org/pdf/2406.08160
代码:https://github.com/huangyan28/Chemistry3D,; https://github.com/huangyan28/Chemistry3D
41. LVBench:一个极端长视频理解基准
标题:LVBench: An Extreme Long Video Understanding Benchmark
机构:清华大学、北京大学
关键词:长视频理解、多模态模型、数据集、信息提取
地址:https://arxiv.org/pdf/2406.08035
代码:https://lvbench.github.io
42. ALPS:针对大模型的高稀疏一次性剪枝的改进优化
标题:ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models
机构:麻省理工学院
关键词:大型语言模型、性能提升
地址:https://arxiv.org/pdf/2406.07831
43. DualBind:一种用于蛋白质-配体结合亲和力预测的双损失框架
标题:DualBind: A Dual-Loss Framework for Protein-Ligand Binding Affinity Prediction
机构:英伟达
关键词:蛋白质-配体结合、双损失框架、均方误差、去噪分数匹配
地址:https://arxiv.org/pdf/2406.07770
44. StreamPrompt:可学习提示引导的数据选择方法,用于高效的流式学习
标题:StreamPrompt: Learnable Prompt-guided Data Selection for Efficient Stream Learning
机构:南洋理工大学、新加坡科技与设计大学
关键词:流式学习、数据选择、提示学习、计算效率
地址:https://arxiv.org/pdf/2406.07590
代码:https://github.com/intellistream/Efficient-Stream-Learning
45. MMIL:一种发现疾病相关细胞类型的新算法
标题:MMIL: A novel algorithm for disease associated cell type discovery
机构:斯坦福大学
关键词:单细胞数据分析、疾病相关细胞类型、多实例学习、生物标志物选择
地址:https://arxiv.org/pdf/2406.08322
46. fNIRS解码视觉想象力的进展
标题:Progress Towards Decoding Visual Imagery via fNIRS
机构:麦吉尔大学、斯坦福大学、滑铁卢大学
关键词:fNIRS、图像重建、大脑活动、空间分辨率
地址:https://arxiv.org/pdf/2406.07662
47. ε-重训练改进策略优化
标题:Improving Policy Optimization via \varepsilon-Retrain
机构:麻省理工学院、卡内基梅隆大学
关键词:策略优化、行为偏好、样本效率、形式验证
地址:https://arxiv.org/pdf/2406.08315
48. 半监督口语语言注释化
标题:Semi-Supervised Spoken Language Glossification
机构:百度、中国科学技术大学
关键词:口语语言注释化、半监督学习、一致性正则化、自训练
地址:https://arxiv.org/pdf/2406.08173
代码:https://github.com/yaohj11/S3LG
49. Make Your Actor Talk:通过运动和外观解耦实现通用且高保真的唇同步
标题:Make Your Actor Talk: Generalizable and High-Fidelity Lip Sync with Motion and Appearance Disentanglement
机构:北京大学、清华大学、鹏城实验室
关键词:唇同步、运动解耦、外观合成、身份保持
地址:https://arxiv.org/pdf/2406.08096
代码:https://Ingrid789.github.io/MyTalk/)
50. It Takes Two:探究强化学习中奖励模型与策略模型的无缝衔接
标题:It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF
机构:卡内基梅隆大学、约翰霍普金斯大学
关键词:无缝衔接、奖励模型、策略模型、SEAM
地址:https://arxiv.org/pdf/2406.07971
51. 小规模无数据知识蒸馏
标题:Small Scale Data-Free Knowledge Distillation
机构:清华大学
关键词:无数据知识蒸馏、小规模、训练效率、模型性能
地址:https://arxiv.org/pdf/2406.07876
代码:https://github.com/OSVAI/SSD-KD
52. From Variance to Veracity:分解和缓解可微分捆绑调整层中的梯度方差
标题:From Variance to Veracity: Unbundling and Mitigating Gradient Variance in Differentiable Bundle Adjustment Layers
机构:博世AI中心、卡内基梅隆大学、慕尼黑工业大学
关键词:梯度方差、捆绑调整、视觉里程计、训练稳定性
地址:https://arxiv.org/pdf/2406.07785
53. BrainChat:利用视觉-语言预训练模型从fMRI解码语义信息
标题:BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models
机构:浙江大学
关键词:fMRI、语义解码、预训练模型、多模态
地址:https://arxiv.org/pdf/2406.07584
54. GUI Odyssey:移动设备跨应用图形用户界面导航综合数据集
标题:GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices
机构:香港大学、南京大学、上海交通大学
关键词:GUI导航、跨应用、数据集、多模态模型
地址:https://arxiv.org/pdf/2406.08451
代码:https://github.com/OpenGVLab/GUI-Odyssey
55. 设计以儿童为中心的内容曝光和审核
标题:Designing Child-Centered Content Exposure and Moderation
机构:麻省理工学院
关键词:儿童网络安全、内容审核、人本设计、AI责任
地址:https://arxiv.org/pdf/2406.08420
56. M-LRM:多视角大型重建模型
标题:M-LRM: Multi-view Large Reconstruction Model
机构:香港科技大学
关键词:多视角重建、交叉注意力、3D先验、训练收敛
地址:https://arxiv.org/pdf/2406.07648
代码:https://murphylmf.github.io/M-LRM/
57. VulDetectBench:评估大模型在漏洞检测中的深度能力
标题:VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models
机构:复旦大学、华中科技大学
关键词:漏洞检测、大型语言模型、评估基准、代码安全
地址:https://arxiv.org/pdf/2406.07595
代码:https://github.com/Sweetaroo/VulDetectBench
58. 改进大模型以推荐系统中使用词汇外标记
标题:Improving LLMs for Recommendation with Out-Of-Vocabulary Tokens
机构:腾讯、南京大学
关键词:大语言模型、推荐系统、词汇外标记、用户表示
地址:https://arxiv.org/pdf/2406.08477
59. 大模型必须学会知道自己不知道什么
标题:Large Language Models Must Be Taught to Know What They Don't Know
机构:纽约大学、剑桥大学
关键词:不确定性估计、人机协作
地址:https://arxiv.org/pdf/2406.08391
60. 基于实例级增强的数据集扩展方法
标题:Dataset Enhancement with Instance-Level Augmentations
机构:牛津大学
关键词:数据增强、实例级、扩散模型、数据匿名化
地址:https://arxiv.org/pdf/2406.08249
61. 探究混合专家模型后训练量化的基准
标题:Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark
机构:普渡大学、香港中文大学、北卡罗来纳大学
关键词:混合专家、后训练量化、模型压缩、稀疏激活
地址:https://arxiv.org/pdf/2406.08155
62. 基于支持度的知识重写技术在检索增强语言模型中的应用
标题:Supportiveness-based Knowledge Rewriting for Retrieval-augmented Language Modeling
机构:北京大学、阿里巴巴集团
关键词:知识重写、支持度、检索增强、语言模型
地址:https://arxiv.org/pdf/2406.08116
63. 多模态表格理解
标题:Multimodal Table Understanding
机构:中国科学院大学
关键词:多模态表格理解、Table-LLaVA、MMTab数据集、表格图像分析
地址:https://arxiv.org/pdf/2406.08100
代码:https://github.com/SpursGoZmy/Table-LLaVA
64. 大模型能否理解空间音频?
标题:Can Large Language Models Understand Spatial Audio?
机构:清华大学、剑桥大学、字节跳动
关键词:空间音频、声源定位、远场语音识别、语音提取
地址:https://arxiv.org/pdf/2406.07914
65. 标签平滑改进机器遗忘
标题:Label Smoothing Improves Machine Unlearning
机构:字节跳动、密歇根州立大学
关键词:标签平滑、机器遗忘、模型评估、计算效率
地址:https://arxiv.org/pdf/2406.07698
66. 对抗性机器遗忘
标题:Adversarial Machine Unlearning
机构:UC圣克鲁斯分校
关键词:机器遗忘、成员推理攻击、博弈论、隐私保护
地址:https://arxiv.org/pdf/2406.07687
67. MultiPragEval:大模型的多语言语用评估
标题:MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models
机构:首尔国立大学
关键词:多语言评估、语用推理、模型比较、上下文意识
地址:https://arxiv.org/pdf/2406.07736
68. 利用潜在世界模型增强端到端自动驾驶
标题:Enhancing End-to-End Autonomous Driving with Latent World Model
机构:中国科学院大学、中国科学院自动化研究所
关键词:端到端自动驾驶、自监督学习、潜在世界模型、性能提升
地址:https://arxiv.org/pdf/2406.08481
69. Next-Generation Database Interfaces:基于LLM的文本到SQL综述
标题:Next-Generation Database Interfaces: A Survey of LLM-based Text-to-SQL
机构:香港理工大学
关键词:文本到SQL、大型语言模型、数据库接口、评估指标
地址:https://arxiv.org/pdf/2406.08426
70. From a Social Cognitive Perspective:情境感知视觉社会关系识别
标题:From a Social Cognitive Perspective: Context-aware Visual Social Relationship Recognition
机构:新加坡国立大学、中国科学技术大学
关键词:社会认知、多模态、视觉社会关系识别、情境感知
地址:https://arxiv.org/pdf/2406.08358
71. 对基于令牌级奖励引导文本生成方法的批判性审视
标题:A Critical Look At Tokenwise Reward-Guided Text Generation
机构:滑铁卢大学、Vector Institute
关键词:令牌级奖励、RLHF、文本生成、模型优化
地址:https://arxiv.org/pdf/2406.07780
72. 短-长卷积助力硬件高效线性注意力聚焦长序列
标题:Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences
机构:西湖大学
关键词:线性注意力、短-长卷积、硬件效率、长序列处理
地址:https://arxiv.org/pdf/2406.08128
73. Let's Go Real Talk:面向面对面交流的口语对话模型
标题:Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation
机构:韩国科学技术院
关键词:面对面交流、口语对话模型、多模态、视听语音
地址:https://arxiv.org/pdf/2406.07867
代码:https://multidialog.github.io and https://multidialog.github.io,
74. Judging the Judges:大模型在成对比较评估中的位置偏差系统性研究
标题:Judging the Judges: A Systematic Investigation of Position Bias in Pairwise Comparative Assessments by LLMs
机构:达特茅斯学院
关键词:位置偏差、模型评估、一致性、公平性
地址:https://arxiv.org/pdf/2406.07791
75. Flash-VStream:基于内存的实时长视频流理解
标题:Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams
关键词:实时视频处理、多模态理解、在线视频流、问答基准
地址:https://arxiv.org/pdf/2406.08085
代码:https://invinciblewyq.github.io/vstream-page/
76. Human 3Diffusion:通过显式三维一致扩散模型实现逼真虚拟形象创建
标题:Human 3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion Models
关键词:三维一致性、扩散模型、虚拟形象、高斯溅射
地址:https://arxiv.org/pdf/2406.08475
代码:https://yuxuan-xue.com/human-3diffusion
77. Diff-A-Riff:通过潜在扩散模型进行音乐伴奏共创
标题:Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models
机构:伦敦玛丽皇后大学
关键词:潜在扩散模型、音乐伴奏生成、音频质量、推理效率
地址:https://arxiv.org/pdf/2406.08384
78. WMAdapter:为潜在扩散模型添加水印控制
标题:WMAdapter: Adding WaterMark Control to Latent Diffusion Models
机构:新加坡国立大学
关键词:水印控制、扩散模型、图像版权保护、微调策略
地址:https://arxiv.org/pdf/2406.08337
79. MaIL: 利用Mamba改进模仿学习
标题:MaIL: Improving Imitation Learning with Mamba
机构:卡尔斯鲁厄理工学院
关键词:Mamba、模仿学习、状态空间模型、多模态
地址:https://arxiv.org/pdf/2406.08234
80. DeTriever:基于解码器表示的检索器,用于改进NL2SQL的上下文学习
标题:DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning
机构:阿尔伯塔大学、英属哥伦比亚大学
关键词:NL2SQL、上下文学习、模型评估、示例选择
地址:https://arxiv.org/pdf/2406.07913
81. GENIU:一种针对不平衡数据的受限数据访问遗忘方法
标题:GENIU: A Restricted Data Access Unlearning for Imbalanced Data
机构:阿德莱德大学
关键词:数据隐私、不平衡数据、类别遗忘、变分自编码器
地址:https://arxiv.org/pdf/2406.07885
82. 大模型是否解决了示例编程?
标题:Is Programming by Example solved by LLMs?
机构:康奈尔大学
关键词:大语言模型、示例编程、模型微调、泛化能力
地址:https://arxiv.org/pdf/2406.08316
83. 大型多模态模型的概念基础解释性框架
标题:A Concept-Based Explainability Framework for Large Multimodal Models
机构:索邦大学
关键词:多模态概念、字典学习、模型解释性、语义基础
地址:https://arxiv.org/pdf/2406.08074
84. 理解和缓解文本到图像生成模型中的组合性问题
标题:Understanding and Mitigating Compositional Issues in Text-to-Image Generative Models
机构:马里兰大学
关键词:文本到图像生成、组合性问题、CLIP文本编码器、线性投影微调
地址:https://arxiv.org/pdf/2406.07844
85. 在线视频中漫画恶作剧内容的标记:一种多模态层次交叉注意力模型
标题:Labeling Comic Mischief Content in Online Videos with a Multimodal Hierarchical-Cross-Attention Model
机构:休斯顿大学、MBZUAI大学
关键词:漫画恶作剧检测、多模态、层次交叉注意力模型、数据集
地址:https://arxiv.org/pdf/2406.07841
86. ProTrain:通过内存感知技术实现高效LLM训练
标题:ProTrain: Efficient LLM Training via Memory-Aware Techniques
关键词:内存感知、高效训练、自适应内存管理、训练吞吐量
地址:https://arxiv.org/pdf/2406.08334
87. 六大出版商文章处理费用开放数据集(2019-2023)
标题:An open dataset of article processing charges from six large scholarly publishers (2019-2023)
机构:渥太华大学、比勒费尔德大学
关键词:文章处理费用、学术出版、数据集、开放获取
地址:https://arxiv.org/pdf/2406.08356
88. Fewer Tokens and Fewer Videos:扩展大型视觉语言模型中的视频理解能力
标题:Fewer Tokens and Fewer Videos: Extending Video Understanding Abilities in Large Vision-Language Models
关键词:视觉语言模型、视频理解、模型压缩、时间理解
地址:https://arxiv.org/pdf/2406.08024
89. BookSQL:会计领域大规模文本到SQL数据集
标题:BookSQL: A Large Scale Text-to-SQL Dataset for Accounting Domain
关键词:文本到SQL、会计领域、数据集、模型评估
地址:https://arxiv.org/pdf/2406.07860
90. Transformer Models in Education:使用AraBART、MT5、AraT5和mBART总结科学教科书
标题:Transformer Models in Education: Summarizing Science Textbooks with AraBART, MT5, AraT5, and mBART
机构:哥伦比亚大学、昆士兰科技大学
关键词:文本摘要、自然语言处理、教育技术、阿拉伯语
地址:https://arxiv.org/pdf/2406.07692
91. AIM: 让任何多模态大模型拥抱高效的情境学习
标题:AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning
关键词:多模态学习、情境学习、模型融合、效率提升
地址:https://arxiv.org/pdf/2406.07588
92. 初始化对LoRA微调动态的影响
标题:The Impact of Initialization on LoRA Finetuning Dynamics
关键词:LoRA、初始化、学习率
地址:https://arxiv.org/pdf/2406.08447
93. DistilDoc:视觉丰富文档应用中的知识蒸馏
标题:DistilDoc: Knowledge Distillation for Visually-Rich Document Applications
关键词:知识蒸馏、文档布局分析、模型压缩、视觉丰富文档
地址:https://arxiv.org/pdf/2406.08226
94. Explore-Go:利用探索提升深度强化学习中的泛化能力
标题:Explore-Go: Leveraging Exploration for Generalisation in Deep Reinforcement Learning
关键词:强化学习、泛化能力、多任务学习
地址:https://arxiv.org/pdf/2406.08069
95. 嵌入式损坏提示实现大模型遗忘
标题:Large Language Model Unlearning via Embedding-Corrupted Prompts
关键词:大型语言模型、知识遗忘、嵌入式损坏提示、模型评估
地址:https://arxiv.org/pdf/2406.07933
96. 开放域对话生成中的动态随机解码策略
标题:Dynamic Stochastic Decoding Strategy for Open-Domain Dialogue Generation
关键词:动态解码策略、对话生成、自适应搜索、性能提升
地址:https://arxiv.org/pdf/2406.07850