Big Model Weekly 第15期

点击蓝字

bc6538d7238527be71bbb03f2f8f3948.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

1. Evaluating Very Long-Term Conversational Memory of LLM Agents

现有关于长期开放领域对话的研究主要集中在评估模型在不超过五个聊天会话范围内的响应。尽管长篇大论的语言模型(LLMs)和检索增强生成(RAG)技术取得了进展,但它们在非常长期的对话中的有效性尚未被探索。为了填补这一研究空白,本文引入了一个机器人 - 人类pipline,通过利用基于LLM的代理架构并将他们的对话基于人物角色和时间事件图来生成高质量的、非常长期的对话。此外,本文为每个代理配备了分享和对图像做出反应的能力。生成的对话经由人类注释者验证和编辑,以确保长期一致性和对事件图的基础。使用这个pipline,作者收集了LoCoMo,一个包含300轮对话和平均9K个标记的非常长期对话数据集,最多达到35个会话。基于LoCoMo,文中提出了一个全面的评估基准,以衡量模型中的长期记忆,涵盖了问题回答、事件摘要和多模态对话生成任务。实验结果表明,LLMs在理解长篇对话和理解对话中的长期时间和因果动态方面存在挑战。采用长篇LLMs或RAG等策略可以提供改进,但这些模型仍然远远落后于人类表现。

文章链接:

https://arxiv.org/pdf/2402.17753.pdf

d6878c250514501e94a7a3ee0fb808d5.png

dddbb7fd1b95cedd0c6668b933acb2bb.png

d5ab8108aa68124e2f3827bee386ea25.png

c656485e29e864fb0e0cdd3d49e4fa6e.png

7a1d0dc4a70ba6c06b3900cd25dccb6e.png

2. LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

高效的微调对于调整大型语言模型(LLMs)以适应下游任务至关重要。然而,将这些方法应用于不同的模型需要大量的工作。本文提出了LLAMAFACTORY,这是一个统一的框架,集成了一套尖端的高效训练方法。它允许用户通过内置的 Web UI LLAMABOARD 灵活定制超过100个LLMs的微调,无需编码。作者通过语言建模和文本生成任务在实践中验证了我们的框架的效率和有效性。

文章链接:

https://arxiv.org/pdf/2403.13372.pdf

b72e649decfab6ef03f8df4fce7a9ecf.png

f7a1685ade7dff47aad87c2dc8344beb.png

8c3027272af8342a9bb5fe583abb2ee2.png

2f1b670498350b16681c549270581d66.png

27c123d1c23a2fb2559c8ac2c7611dea.png

8b6bb329c44516b9d71b5b6e281720d4.png

1593ddc785917dc7407b527c7c379b45.png

3. MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

多模态大型语言模型(MLLMs)取得了显著的进展,引起了空前的关注,因为它们在视觉背景下表现出优异的性能。然而,它们在解决视觉数学问题方面的能力尚未得到充分评估和理解。作者调查了当前的基准,以在文本问题中包含过多的视觉内容,这可能有助于MLLMs在不真正解释输入图表的情况下推断答案。为此,本文引入了MATHVERSE,这是一个全面的视觉数学基准,旨在公平和深入地评估MLLMs。文中精心收集了2612个高质量的多学科数学问题,其中包含图表,这些问题来自公开可用的资源。然后,人工注释员将每个问题转化为六个不同版本,每个版本提供多模态信息内容的不同程度,总共贡献了15K个测试样本。这种方法使得MATHVERSE能够全面评估MLLMs是否以及在多大程度上真正理解数学推理的视觉图表。此外,作者提出了一种链式思考(CoT)评估策略,用于对输出答案进行细致的评估。作者不是简单地判断真或假,而是使用GPT-4(V)自适应提取关键推理步骤,然后通过详细的错误分析对每个步骤进行评分,这可以揭示MLLMs的中间CoT推理质量。通过MATHVERSE,文章揭示了大多数现有的MLLMs在理解数学图表方面存在困难,严重依赖于文本问题。令人惊讶的是,其中一些甚至在没有视觉输入的情况下实现了5%以上的更高准确率,例如,Qwen-VL-Max和InternLM-XComposer2。相比之下,GPT-4V和ShareGPT4V在数学推理的视觉内容上表现出相对更好的理解能力。

文章链接:

https://arxiv.org/pdf/2403.14624.pdf

2762f8f27f28e4e280b6a0a69ae89925.png

93ab67d185ab0d0aec8c726037a73966.png

7430b44ef5a1c03e88767b67ec6f8ddb.png

7cc402f6c42048b518d303d384ff3dc3.png

1c2fc15c7a75e5a91897873db4ccf08a.png

4. RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content

最近对大型语言模型(LLMs)的进展展示了在不同领域的各种任务中的显著能力。然而,偏见的出现以及在恶意输入下生成有害内容的潜力,给LLMs带来了重大挑战。当前的缓解策略虽然有效,但在面对对抗性攻击时并不具有鲁棒性。本文介绍了一种新颖的框架,即Resilient Guardrails for Large Language Models(RigorLLM),旨在有效地调节LLMs的有害输入和输出。通过采用多方面的方法,包括通过Langevin动力学进行基于能量的训练数据生成,通过极小化最大化优化输入的安全后缀,以及基于提示增强将鲁棒KNN与LLMs结合的融合模型,RigorLLM为有害内容调节提供了强大的解决方案。实验评估表明,RigorLLM不仅在检测有害内容方面优于现有的基线(如OpenAI API和Perspective API),而且在应对越狱攻击方面表现出无与伦比的韧性。约束优化和基于融合的防护方法的创新使用代表了在开发更安全可靠的LLMs方面迈出的重要一步,为应对不断演变的数字威胁设立了新的内容调节框架标准。

文章链接:

https://arxiv.org/pdf/2403.13031.pdf

2919b66ef14c958af395fcd48d0fa93d.png

f102ddd64135128abc803d0678f6b995.png

ad98a83770c25b4841a88d0d6b67fdc1.png

36226fc471797965a36724c270dfa70f.png

0f107d1755ab83fee764c169b8be40af.png

5. Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

视觉语言模型(VLMs)在多模态任务上的性能越来越强大。然而,特别是对于较小的VLMs,其推理能力仍然有限,而大型语言模型(LLMs)的推理能力已经得到了许多改进。作者提出了一种将LLMs的能力转移到VLMs的技术。在最近推出的ChartQA上,本文方法在PaLI3-5B VLM上获得了最先进的性能,同时在PlotQA和FigureQA上也实现了更好的性能。作者首先通过继续使用Liu等人改进的图表到表格转换任务的改进版本,改进了图表表示。然后,提出构建一个比原始训练集大20倍的数据集。为了提高一般的推理能力和改善数值运算,作者使用图表的表格表示来合成推理追踪。最后,该模型使用Hsieh等人介绍的多任务损失进行了微调。该研究的变体ChartPaLI-5B甚至在没有使用上游OCR系统的情况下,就超过了PaLIX-55B等10倍大的模型,同时与PaLI3-5B基线相比,保持了推理时间恒定。当理由进一步通过简单的思维方案提示进行改进时,所提模型超过了最近推出的Gemini Ultra和GPT-4V。

文章链接:

https://arxiv.org/pdf/2403.12596.pdf

d7feff6213cd39cfbfd3c419a4c1094f.png

e28e4f144c921af64e54f5ddb81ce365.png

5fbfa4cf12b5cec4984f92004d301d4c.png

0b57b25559dffe9105723dddbea6f2ac.png

92f97317f9ff80f8420a4148652119e2.png

9ec9f427b2e620fa21c2b2e508c8975d.png

914fda7624bdecb68dfeb724f850d8f2.png

60e03277b2051ca180bfc186b6c7f724.png

2552cf02bc8d1c225f19b814e832d9b8.png

6. TnT-LLM: Text Mining at Scale with Large Language Models

将非结构化文本转化为结构化且有意义的形式,并通过有用的类别标签进行组织,是文本挖掘在下游分析和应用中的基础步骤。然而,大多数现有方法用于生成标签分类法和构建基于文本的标签分类器,仍然严重依赖领域专业知识和手动策划,使得该过程昂贵且耗时。当标签空间未明确定义且大规模数据注释不可用时,这一挑战尤为严峻。本文利用大型语言模型(LLMs)来应对这些挑战,其基于提示的接口有助于诱导和使用大规模伪标签。本文提出了TnT-LLM,一个两阶段框架,利用LLMs自动化端到端标签生成和分配过程,最大程度减少人力成本,适用于任何给定的用例。在第一阶段,作者引入了一种零样本、多阶段推理方法,使LLMs能够迭代产生和完善标签分类法。在第二阶段,LLMs作为数据标签生成器,产生训练样本,以便可以可靠地构建、部署和规模化提供轻量级监督分类器。本文将TnT-LLM应用于对Bing Copilot(前身为Bing Chat)的用户意图和会话领域的分析,这是一个面向开放领域的基于聊天的搜索引擎。通过使用人工和自动评估指标进行广泛实验,结果表明,与最先进的基线方法相比,TnT-LLM生成的标签分类法更准确和相关,并且在规模化分类的准确性和效率之间取得了良好的平衡。文中还分享了在实际应用中利用LLMs进行大规模文本挖掘时所面临的挑战和机遇的实践经验和见解。

文章链接:

https://arxiv.org/pdf/2403.12173.pdf

7ea27d7d45ab608bb2224db54fad5576.png

c1ade63ba2513ca68a2e4815190da73e.png

8f12dc44d1cb01ab0140ffca75d44934.png

e5a482f895c4bbcde712490d9fcbbe02.png

947a6736f4470c52a00b2c9b8d7c6e63.png

7. PERL: Parameter Efficient Reinforcement Learning from Human Feedback

人类反馈强化学习(RLHF)已被证明是将预训练的大型语言模型(LLMs)与人类偏好对齐的有效方法。但使用RLHF训练模型在计算上是昂贵的,并且整个过程复杂。这项工作研究了在使用Hu等人引入的低秩适应(LoRA)参数高效方法训练的情况下进行RLHF的方法。本文调查了“参数高效强化学习”(PERL)的设置,在这个设置中,作者使用LoRA进行奖励模型训练和强化学习。文章在包括2个新数据集在内的7个基准测试中,比较了PERL与传统的全调优(finetuning)在各种配置下的性能,包括奖励建模和强化学习。研究发现,PERL的性能与传统的RLHF设置相当,同时训练速度更快,内存占用更少。这使得RLHF能够高效地发挥作用,同时减少了限制其作为大型语言模型对齐技术的采用的计算负担。本文还发布了两个新的好评/差评偏好数据集:“Taskmaster Coffee”和“Taskmaster Ticketing”,以促进RLHF方面的研究。

文章链接:

https://arxiv.org/pdf/2403.10704.pdf

20cf75b1bed4c2d1e44de227c95dc66c.png

08aa418812f0ba2a048c7c665d6f109b.png

878e3030b0a97ba9c6458fccedef7731.png

f507de16eb54e8da4ee1ab394469b97d.png

往期精彩文章推荐

a83ca2fb4c120b315204c1e8fc09571e.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

6156dcbfcf64bbfc5813b251328cedec.png

我知道你

在看

~

0a68ff749b0ea2819731822d1446a3fb.gif

点击 阅读原文 观看更多!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值