每日学术速递5.28

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CL

1.Improving Factuality and Reasoning in Language Models through Multiagent Debate

标题:通过多主体辩论改进语言模型中的事实性和推理 

作者:Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, Igor Mordatch

文章链接:https://arxiv.org/abs/2305.14325

项目代码:https://composable-models.github.io/llm_debate/

摘要:

        近年来,大型语言模型 (LLM) 在语言生成、理解和小样本学习方面展示了卓越的能力。大量的工作探索了如何通过提示工具进一步提高他们的表现,包括验证、自洽或中间暂存器。在本文中,我们提出了一种改进语言响应的补充方法,其中多个语言模型实例在多轮中提出并辩论其各自的响应和推理过程,以得出共同的最终答案。我们的研究结果表明,这种方法显着增强了许多任务的数学和战略推理。我们还证明,我们的方法提高了生成内容的事实有效性,减少了当代模型容易出现的错误答案和幻觉。我们的方法可以直接应用于现有的黑盒模型,并对我们调查的所有任务使用相同的程序和提示。总的来说,我们的研究结果表明,这种“思想社会”方法有可能显着提高 LLM 的能力,并为语言生成和理解的进一步突破铺平道路。

2."According to ..." Prompting Language Models Improves Quoting from Pre-Training Data

标题:“根据……”提示语言模型改进了预训练数据的引用

作者:Orion Weller, Marc Marone, Nathaniel Weir, Dawn Lawrie, Daniel Khashabi, Benjamin Van Durme

文章链接:https://arxiv.org/abs/2305.13252

摘要:

        尽管对事实数据进行了预训练,但大型语言模型 (LLM) 可能会产生幻觉并生成虚假信息。受“根据消息来源”这一新闻手段的启发,我们建议根据提示:指导 LLM 对先前观察到的文本做出地面反应。为了量化这种基础,我们提出了一种新颖的评估指标(QUIP-Score),用于衡量模型生成的答案在基础文本语料库中直接找到的程度。我们通过维基百科上的实验来说明,这些提示可以改善我们指标下的基础,并具有经常提高最终任务绩效的额外好处。此外,要求模型减少接地(或接地到其他语料库)的提示会减少接地,表明语言模型能够根据要求增加或减少接地世代。

3.Aligning Large Language Models through Synthetic Feedback 

标题:通过综合反馈对齐大型语言模型

作者:Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak, Kang Min Yoo, Minjoon Seo

文章链接:https://arxiv.org/abs/2305.13735

摘要:

        使大型语言模型 (LLM) 与人类价值观保持一致变得越来越重要,因为它可以对 LLM 进行复杂的控制,例如,使它们遵循给定的指令,同时降低它们的毒性。但是,它需要大量的人工演示和反馈。最近,开源模型试图通过从 InstructGPT 或 ChatGPT 等已经对齐的 LLM 中提取数据来复制对齐学习过程。虽然这个过程减少了人力,但构建这些数据集对教师模型有很大的依赖性。在这项工作中,我们提出了一个新的对齐学习框架,几乎不需要人工,也不依赖于预先对齐的 LLM。首先,我们通过对比来自具有各种规模和提示的原始 LLM 的响应,使用合成反馈执行奖励建模 (RM)。然后,我们使用 RM 模拟高质量演示来训练监督策略,并通过强化学习进一步优化模型。我们生成的模型,Aligned Language Model with Synthetic Training dataset (ALMoST),优于开源模型,包括 Alpaca、Dolly 和 OpenAssistant,这些模型是根据 InstructGPT 或人工注释指令的输出进行训练的。我们的 7B 尺寸模型在使用 GPT-4 作为判断的 A/B 测试中优于 12-13B 模型,平均胜率约为 75%。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
快递公司每日早晨给每位快递员推送的信息包括需要送到客户手中的快递以及相应的路线信息。 首先,快递公司根据客户的订单信息,将需要送到客户手中的快递进行分类和整理,并生成一个清单。 然后,公司将这个清单通过电子通讯方式发送给每位快递员。快递员收到清单后,会根据自己的分拣区域和派送范围,对清单进行分析和处理。 快递员首先会检查清单上的快递数量和要求的路线信息,以确保不会漏送或错送,同时也要对快递的重要性和特殊要求进行了解。 根据清单上的路线信息,快递员会规划自己的派送路线。在规划路线时,快递员会结合实际情况考虑不同地点之间的距离、道路交通情况、客户收货时间等因素,以保证在最短的时间内高效地完成派送任务。 在开始派送之前,快递员会按照通常的操作流程进行货物的装载和车辆的检查。确保货物的安全和车辆的良好状态,以便在派送过程中无需担心意外事故的发生。 完成以上准备工作后,快递员会按照事先规划好的路线依次前往各个客户的收货地址。在派送过程中,快递员会留意交通情况和道路标识,以确保顺利到达。同时,快递员还会与客户保持良好的沟通,提前与客户联系,以确保在适当的时间内送到客户手中。 当快递员完成一单派送后,会及时在手机或电子设备上更新系统,标记该单已成功送达,同时记录派送的具体时间和收件人的签收信息。 总之,快递公司每日早晨给每位快递员推送的信息包括快递清单和路线信息,快递员根据这些信息进行派送时需要仔细分析和规划路线,确保快递能够准确、及时、安全地送达到客户手中。这种高效的工作流程和良好的沟通协作,使得快递员能够有效地完成派送任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AiCharm

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值