论文笔记--Llama 2: Open Foundation and Fine-Tuned Chat Models

最新推荐文章于 2025-04-27 20:08:34 发布

Isawany

最新推荐文章于 2025-04-27 20:08:34 发布

阅读量2.2k

点赞数

分类专栏：论文阅读文章标签：论文阅读 llama 语言模型 RLHF chatgpt

本文链接：https://blog.csdn.net/weixin_38124427/article/details/132250348

版权

1. 文章简介

标题：Llama 2: Open Foundation and Fine-Tuned Chat Models
作者：Touvron H, Martin L, Stone K, et al.
日期：2023
期刊：arxiv preprint

2. 文章概括

文章训练并开源了模型Llama2系列模型。文章对Llama2做了大量的安全和有用性的微调，并进行了大量的数值试验，实验证明，Llama2-chat比其它被比较的开源的chat模型（BLOOM，LLaMa1，Falcon）效果好，且有潜力成为一些未开源chat模型（ChatGPT，BARD）的替代。meta公司发行了如下开源模型

LLAMA2模型：LLAMA1[1]的更新版本，包含7B，13B，70B参数三个版本
LLAMA2-CHAT模型：在LLAMA2之上对对话场景进行微调的chat模型，包含7B，13B，70B参数三个版本。文章整体框架如下图

由于文章内容比较多，笔者挑选了其中重点的部分进行介绍。全部数值实验结果可参见原文。（这篇文章读起来和写起来真的很费力😣，因为文章很长，细节很多，而且好多技术细节写的好晦涩啊）

3 文章重点技术

3.1 预训练Pretraining

3.1.1 预训练细节

文章使用自回归Transformer模型，在LLAMA1[1]的基础之上进行了一些增强，具体包括

增加数据：Llama的语料库包含2trillion个tokens，且全部为公共可用数据，不包含Meta自己的数据集
增加40%的token数
增加上下文长度从2048到4096
修改attention为Grouped-query attention(GQA)，以提升推理效率
具体差异可见下表

3.1.2 Llama2模型评估

文章对上述Llama2模型与Llama1，MosaicML，Falcon这些开源模型效果进行了评估、比对。文章选择了包含代码、常识推理、世界知识、阅读理解、数学、MMLU等benchmarks进行了数值实验。如下表所示，Llama2模型效果超过了Llama1，且超过所有其他被比较的开源模型。
llama2开源模型数值试验
此外，文章将Llama2模型与GPT-3.5、GPT-4，PaLM，PaLM-2-L这些闭源模型进行了比较，通过调用这些模型的API来获得在benchmarks上面的数值实验结果。从下表可以看出，在Llama2 70B和GPT-4等闭源模型中还是有一定的性能差距的。
llama2闭源模型数值试验

3.2 微调Fine-tuning

3.2.1 Supervised Fine-Tuning(FT)

类似于LIMA[2]的结论，文章发现少量高质量的SFT数据的效果超过使用大量无法保证质量的三方数据。文章发现，大约几万条高质量的SFT标注就可以实现高精度的结果，最终文章标注了27540条SFT数据。

3.2.2 Reinforcement Learning with Human Feedback(RLHF)

3.2.2.1 偏好数据

类似InstructGPT[3]，文章尝试收集人类偏好数据，并通过RLHF来将模型和人类偏好和指令遵循进行对齐。
首先，文章通过如下程序收集人类偏好数据：1) 标记员写一个prompt 2) 让模型基于该prompt生成两个回答 3) 标记员基于给定的标准进行二选一 4) 标记员给出两个回答的差异程度：significantly better, better, slightly better或者unsure。按照如上程序，文章每周迭代收集helpfulness和safety两个基准的偏好数据，从而迭代训练llama2-chat模型。
此外，标记员需要给出一个安全性的标签，标签指向三个类别：1) 被选择的答案是安全的，另一个答案不安全 2) 两个答案都是安全的 3) 两个答案都是不安全的。结果表明三种选择的占比分别为18%, 47%和35%。文章将上述第一个分类的数据移除，因为安全的回答自然会被人类偏爱。

3.2.2.2 Reward Modeling(RM)

接下来，文章利用上述helpfulness, safety偏好数据分别训练两个奖励模型Helpfulness RM和 Safety RM。文章利用预训练的chat模型作为RM的初始化参数，这样可以包含预训练阶段学习到的知识，模型参数和架构与预训练阶段一致，除了将用于预测token的分类head修改为一个计算奖励的份的回归head。
为了学习人类偏好数据，文章参考InstructGPT[3]中的ranking损失函数 $\mathcal{L}_{ranking} = - \log (\sigma (r_{\theta} (x, y_c) - r_{\theta}(x, y_r)))$ ，其中 $x$ 为prompt， $y_c$ 为被选择的回答， $y_r$ 为被拒绝的回答， $r_{\theta}$ 表示奖励模型的输出分值。上述损失函数旨在令被偏好的回答 $y_c$ 的得分尽可能高于被拒绝的回答 $y_r$

最低0.47元/天解锁文章