释放长上下文:LLM的万词生成能力

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain?f=cs

1.Large Language Model Agent in Financial Trading: A Survey

本文对大型语言模型(LLM)在金融交易中作为代理的应用进行了全面的综述。交易是一项竞争激烈的任务,需要策略、知识和心理素质的结合。随着大型语言模型的最新成功,将这种新兴的智能应用于这个竞争激烈的领域并了解它们是否能够超越专业交易者是非常吸引人的。我们概述了代理中常用的架构、数据输入以及LLM交易代理在回测中的表现,同时也总结了这些研究中呈现的挑战。本综述旨在提供对基于LLM的金融交易代理当前状态的洞见,并概述在这一领域未来研究方向。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66bc137201d2a3fbfc59637a/?f=cs

2.LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

本文介绍了LongWriter,一种能够实现超过10000字生成的大型语言模型(LLM)。尽管现有的长上下文大语言模型能够处理多达100000个标记的输入,但在生成超过2000字的内容时仍然存在困难。通过控制实验,我们发现模型的有效生成长度内在地受限于在监督微调(SFT)过程中所见到的样本。换句话说,其输出限制是由于现有SFT数据集中长输出示例的稀缺造成的。为了解决这一问题,我们引入了AgentWrite,一个基于代理的流水线,将超长生成任务分解为子任务,使现成的LLM能够生成超过20000字且连贯的输出。利用AgentWrite,我们构建了LongWriter-6k数据集,其中包含6000个SFT数据,输出长度范围从2000字到32000字。通过将此数据集纳入模型训练,我们成功将现有模型的输出长度扩展到超过10000字,同时保持输出质量。我们还开发了LongBench-Write,一个全面评估超长生成能力的基准。我们的9B参数模型,通过DPO进一步改进,在这一基准上实现了最先进的表现,甚至超过了更大规模的有专利权模型。总的来说,我们的工作表明,现有的长上下文LLM已经具备了更大的输出窗口的潜力——你所需要的就是在模型对齐过程中具有扩展输出的数据来解锁这一功能。我们的代码和模型可访问:https://github.com/THUDM/LongWriter。在这里插入图片描述
链接:https://www.aminer.cn/pub/66bc138b01d2a3fbfc5979d9/?f=cs

3.CROME: Cross-Modal Adapters for Efficient Multimodal LLM

本文介绍了一种新的高效跨模态适配器CROME,用于提升图像与语言的结合能力。目前的多模态大型语言模型虽然具有出色的图像语言能力,但广泛应用时面临训练和适配成本高、可适配性有限等问题。传统的解决方案通常需要昂贵的语言模型重新训练,并且适应性有限。此外,目前的研究主要集中在零样本性能的提升,对于特定任务的调优指导不足。本文提出的CROME框架通过创新设计的跨模态适配器,在输入到预训练的语言模型之前,有效地结合了视觉和文本表示,这种轻量级的适配器训练参数最少,能够实现高效的跨模态理解。值得注意的是,CROME在标准视觉问答和指令遵循基准测试中展示了卓越的零样本性能。此外,它在细粒度调优上表现出异常高效的参数调整能力,与任务特定的专业方法相媲美。CROME证明了预训练模型对构建可扩展、适应性强且参数高效的跨模态模型的潜力。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66bc137201d2a3fbfc5963f4/?f=cs

4.Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

本文介绍了rStar,一种无需微调或使用高级模型即可显著提高小型语言模型(SLMs)推理能力的方法。rStar将推理过程解耦为自我玩法的互生成-判别过程。首先,一个目标SLM使用一系列类似于人类的推理动作丰富蒙特卡洛树搜索(MCTS),构建高质量的推理轨迹。接着,另一个与目标SLM能力相似的SLM作为判别器,验证由目标SLM生成的每一条轨迹。双方同意的推理轨迹被认为是互一致的,因此更有可能是正确的。在五个SLM上的大量实验表明,rStar能够有效解决包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA在内的多样推理问题。值得注意的是,rStar将LLaMA2-7B在GSM8K上的准确率从12.51%提升到63.91%,将Mistral-7B的准确率从36.46%提升到81.88%,将LLaMA3-8B-Instruct的准确率从74.53%提升到91.13%。代码将在https://github.com/zhentingqi/rStar上提供。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66bac1e501d2a3fbfcd4605b/?f=cs

5.ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning

本文介绍了一种名为ROS-LLM的框架,旨在通过自然语言提示和来自机器人操作系统(ROS)的上下文信息,实现对非专家用户的直观机器人编程。该系统集成了大型语言模型(LLM),使得非专家用户能够通过聊天界面向系统阐述任务需求。该框架的主要特点包括:与AI代理和多种开源和商业LLM集成的ROS,从LLM输出中自动提取行为并执行ROS动作/服务,支持三种行为模式(序列、行为树、状态机),通过模仿学习为可能的动作库添加新机器人动作,以及通过人类和环境反馈进行LLM反思。广泛的实验验证了该框架的鲁棒性、可扩展性和多样性,在包括长期任务、桌面整理和远程监督控制在内的多种场景中表现出良好的性能。为了推广该框架的应用并支持结果的复现,作者已将代码开源,并可通过链接访问。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66820d2901d2a3fbfcd3c360/?f=cs


AMiner AI入口:
https://www.aminer.cn/chat/g/explain?f=cs

  • 18
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值