Arena：从狼人杀视角评估LLM 基准潜力

AMiner学术搜索和科技情报挖掘

于 2024-07-26 11:00:00 发布

阅读量897

点赞数 14

文章标签：人工智能自然语言处理语言模型 LLM 大模型

本文链接：https://blog.csdn.net/AI_Conf/article/details/140671406

版权

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文，为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain?f=cs

1.Generalization v.s. Memorization: Tracing Language Models’ Capabilities Back to Pretraining Data

这篇论文探讨了大规模语言模型（LLM）如何利用大规模预训练文本语料库来实现其能力，并研究了预训练的LLM在翻译、问答和多项选择推理等任务中，泛化与记忆之间的相互关系。通过对其训练数据进行全面的n-gram分析，研究发现，随着模型规模的增加，与任务相关的n-gram对数据变得越来越重要，有助于提高任务性能，减少记忆，增强泛化能力，并出现新的能力。研究结果支持这样一种假设：LLM的能力源于充分任务相关的预训练数据之间精巧的记忆与泛化的平衡，并指导了更大规模分析的路径，以进一步改进我们对这些模型的理解。
在这里插入图片描述
链接：https://www.aminer.cn/pub/669f0e2701d2a3fbfc0a51b5/?f=cs

2.Compact Language Models via Pruning and Knowledge Distillation

本文研究了通过剪枝和知识蒸馏产生紧凑型语言模型的方法。目前，针对不同部署规模和大小的大型语言模型（LLM）是通过从头开始训练每个变体来生产的，这需要大量的计算资源。作者探讨了通过剪枝现有LLM并使用部分比例（小于3）重新训练的方法，以替代重复的全量训练。为此，作者通过详细实证探索了每个轴上的剪枝策略、轴组合方法、蒸馏策略以及到达最优压缩架构的搜索技术，制定了一套实用且有效的LLM压缩最佳实践，这些实践结合了深度、宽度、注意力和多层感知器剪枝与基于知识蒸馏的重新训练。使用这份指南，作者将Nemotron-4系列LLM压缩了2-4倍，并将其性能与其他同类大小的模型在多种语言建模任务上进行比较。使用我们的方法从已经预训练的15B模型派生出8B和4B模型，每个模型所需训练的令牌数比从头开始训练少40倍；这使得训练整个模型家族（15B、8B和4B）的计算成本节省了1.8倍。Minitron模型在训练时间比从头开始训练少得多，性能与其他社区模型（如Mistral 7B、Gemma 7B和Llama-3 8B）相当，并且优于文献中的最先进压缩技术。
在这里插入图片描述
链接：https://www.aminer.cn/pub/669f0e2701d2a3fbfc0a5007/?f=cs

3.BOND: Aligning LLMs with Best-of-N Distillation

本文介绍了一种新的强化学习算法Best-of-N Distillation（BOND），旨在模拟Best-of-N采样策略，该策略在推理时从多个候选生成中选择最佳的一个，从而大大提高大型语言模型的质量和安全性，同时避免Best-of-N在推理时的显著计算开销。BOND是一种分布匹配算法，通过使策略生成的生成分布与Best-of-N分布更接近来实现。研究使用Jeffreys散度（一种前向和后向KL散度的线性组合）来平衡模式覆盖和模式寻求行为，并推导出一个利用移动锚点提高效率的迭代公式。通过在抽象摘要和Gemma模型上的实验，证明了该方法及其几个设计选择的有效性。将Gemma策略与BOND对齐，在多个基准测试中，其性能超过了其他RLHF算法。
在这里插入图片描述
链接：https://www.aminer.cn/pub/669f0e2701d2a3fbfc0a4fb2/?f=cs

4.Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction

本文提出了一种新框架“狼人 arena”，用于通过经典的社会推理游戏“狼人杀”的视角评估大型语言模型（LLM）。在“狼人 arena”中，LLM 模型相互竞争，操控游戏的复杂动态，包括欺骗、推理和说服。该框架引入了一个基于出价的动态轮流系统，模仿现实世界中个体策略地选择发言时机。通过一个以 Gemini 和 GPT 模型为参赛者的竞技场式锦标赛来展示该框架的实用性。研究结果揭示了模型在策略推理和沟通方面的不同优势和劣势。这些发现突显了“狼人 arena”作为一种具有挑战性和可扩展性的 LLM 基准的潜力。
在这里插入图片描述
链接：https://www.aminer.cn/pub/669dbc7501d2a3fbfca4130c/?f=cs

5.LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

这篇论文介绍了一种名为LazyLLM的新方法，旨在提高长上下文大型语言模型（LLM）的推理效率。现有的基于Transformer的大型语言模型推理过程分为两个阶段：预填充阶段和解码阶段。对于长提示，预填充阶段必须计算所有token的KV缓存，这会显著增加生成第一个token所需的时间，从而成为生成过程的瓶颈。论文提出了一个问题：是否所有提示token都是生成第一个token所必需的。为了解答这个问题，论文引入了LazyLLM方法，该方法在预填充和解码阶段只选择性地计算对下一个token预测重要的token的KV。与一次性修剪提示的静态修剪方法不同，LazyLLM允许语言模型在不同生成步骤中动态选择不同子集的token，即使它们可能在之前的步骤中被修剪。在各种任务的标准数据集上的大量实验表明，LazyLLM是一种通用方法，可以与现有语言模型无缝集成，无需微调即可显著加速生成过程。例如，在多文档问答任务中，LazyLLM将LLama 2 7B模型的预填充阶段加速了2.34倍，同时保持准确率。
在这里插入图片描述
链接：https://www.aminer.cn/pub/669dbc7501d2a3fbfca413af/?f=cs

AMiner AI入口：
https://www.aminer.cn/chat/g/explain?f=cs

AMiner学术搜索和科技情报挖掘

关注

14
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
Arena：从狼人杀视角评估LLM 基准潜力

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。
复制链接

扫一扫