自主LLMs与应用程序和服务的交互,旨在最小化人类监督

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain?f=cs

1.“They are uncultured”: Unveiling Covert Harms and Social Threats in LLM Generated Conversations

这篇论文探讨了大型语言模型(LLM)在现代社会中的普及及其固有的偏见问题。尽管LLM广泛应用于个人助理和招聘工具等用户面向和企业应用中,但现有研究主要关注西方的概念,如种族和性别,而忽略了世界其他地区文化概念的偏见。此外,这些研究通常将“伤害”视为单一维度,而忽略了伤害表现出的各种微妙形式。为了解决这一问题,论文提出了一组基于社会科学文献的七项隐蔽伤害和社会威胁(CHAST)指标。通过使用与人类评估相一致的评估模型,研究LLM生成对话中是否存在隐蔽伤害,尤其是在招聘背景下。研究发现,所研究的八种LLM中有七种生成的对话充满CHAST,这些对话中的恶意观点用看似中性的语言表达,不太可能被现有方法检测到。特别的是,当处理非西方概念如种姓时,这些LLM表现出了比处理西方概念如种族更为极端的观点和意见。
在这里插入图片描述
链接:https://www.aminer.cn/pub/663d7fd501d2a3fbfc4756dd/?f=cs

2.EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction

本文介绍了一种名为EASYTOOL的框架,旨在解决大规模语言模型(LLM)在应用中使用工具时面临的问题。由于现实世界任务的复杂性,越来越多的研究关注于在LLM应用中利用工具。然而,这些工具的文档可能存在多样性、冗余或不完整的情况,这极大地影响了LLM使用工具的能力。EASYTOOL框架能够从不同来源的广泛工具文档中提炼出关键信息,并创建一个统一的接口,即工具指令,为LLM-based agents提供标准化的工具描述和功能。实验结果表明,EASYTOOL能显著减少令牌消耗,并提高在现实世界场景中工具使用的性能。作者表示,未来代码将会放在\url{https://github.com/microsoft/JARVIS/}上。在这里插入图片描述
链接:https://www.aminer.cn/pub/65a49978939a5f4082eb0d3e/?f=cs

3.Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions

这篇论文探讨了在城市导航中,人工智能代理仅通过观察周围环境,识别地标和道路网络连接来完成导航任务,而无需指令的挑战性问题。为了解决这个问题,作者提出了一种新的代理工作流程,该流程特点是具有感知、反思和计划的能力。具体来说,研究发现LLaVA-7B可以被微调,以准确感知地标的方向和距离,用于城市导航。通过记忆机制实现反思,将过去经验存储起来,并与当前感知结合,为有效决策提供论据。计划利用反思结果产生长期计划,以避免远距离导航中的短视决策。与现有最先进基线相比,所设计的工作流程显著提高了LLM代理的导航能力。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66b5780b01d2a3fbfcb6ad04/?f=cs

4.FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design

本文介绍了一种新的算法系统设计方法,即FP6-LLM,旨在通过六位量化(FP6)有效减小大型语言模型(LLM)的体积,同时在不同应用中保持模型质量。目前系统在FP6量化方面没有提供Tensor Core支持,且在LLM推理过程中难以实现性能提升。研究指出,由于模型权重的不规则位宽导致的内存访问不友好和权重去量化的高运行时开销,使得在GPU上支持FP6量化变得具有挑战性。为解决这些问题,研究者提出了TC-FPx,这是首个支持各种量化位宽的浮点权重统一Tensor Core的GPU内核设计方案。将TC-FPx内核集成到现有的推理系统中,为量化LLM推理提供了新的端到端支持(称为FP6-LLM),在此过程中实现了推理成本与模型质量之间的更好权衡。实验表明,FP6-LLM能够使用单个GPU完成LLaMA-70b的推理,与FP16基线相比,实现了1.69x-2.65x更高的标准化推理吞吐量。源代码即将公开。
在这里插入图片描述
链接:https://www.aminer.cn/pub/65b31408939a5f4082a5d265/?f=cs

5.GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications

本文探讨了如何让人类有效地与自主大型语言模型(LLM)协作、委派任务和监督其行动。当前,人类在将LLM生成的输出(如代码、函数或行动)投入现实世界执行前,需要验证其正确性和适当性,这一过程极具挑战性,因为代码理解难度众所周知。文章认为,“事后验证”——在看到输出后验证提议行动的正确性——通常比“事前验证”要容易得多。实现事后验证系统的核心概念是集成一个直观的撤销功能,并为LLM生成的行动建立一个损害限制机制,以有效减轻相关风险。借助这一机制,人类现在可以撤销LLM生成的输出效果,或者确信潜在风险是有限的。文章认为这是关键,可以解锁LLM代理在与应用程序和服务互动时有限(事后)人类参与的潜力。文章描述了我们的开源LLM行动执行运行时——大猩猩执行引擎(GoEX)的设计和实现,并提出了实现LLM与应用互动并最小化人类监督目标的开研究问题。我们将在https://github.com/ShishirPatil/gorilla/发布GoEX。
在这里插入图片描述
链接:https://www.aminer.cn/pub/661743ea13fb2c6cf6439eb3/?f=cs


AMiner AI入口:
https://www.aminer.cn/chat/g/explain?f=cs

  • 17
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值