论文笔记--GPT-4 Technical Report
1. 报告简介
- 标题:GPT-4 Technical Report
- 作者:OpenAI
- 日期:2023
- 期刊:arxiv preprint
2. 报告概括
本文是OpenAI发布的GPT-4的技术报告,主要针对GPT-4的能力、局限和风险性等方面进行测评。GPT-4是个多模态模型,支持文本和图像格式的输入。但OpenAI并没有公布GPT-4实现的技术细节,仅在一些场景给出了推理时的prompt,可供用户参考。
3 报告重点内容
3.1 Predictable Scaling
首先,文章对GPT-4的整体损失进行了分析。根据最近的研究成果,模型的损失和模型的计算量(compute)满足幂律关系。为了判断GPT-4是否满足该关系,文章首先用和GPT-4相同的训练方法(未交代具体方法)训练参数/计算量更小的模型,得到一组compute VS loss的数据对(如下图中的实心黑点),再用这些数据拟合一个幂律模型: L = a C b + c L=aC^b + c L=aCb+c(下图中的虚线)。可以看到GPT-4(绿色原点)恰好在该幂律模型上,说明GPT-4的loss是可以被精准预测的。
PS:查了很多资料,才明白x轴的单位分别是
- 1 p = 1 p i c o = 1 0 − 12 1p=1pico = 10^{-12} 1p=1pico=10−12
- 1