大模型 GPT 到 GPT-3.5 知识点总结
介绍
OpenAI 的生成预训练变换模型 (Generative Pre-trained Transformer, GPT) 系列已经经历了多个迭代,最新版本是 GPT-3.5。每个版本都引入了改进和新特性,以增强模型的能力。
关键点
GPT-1
- 发布时间:2018年6月
- 架构:基于 Transformer
- 参数数量:1.17亿
- 训练数据:BooksCorpus(8亿字)
- 主要特性:
- 引入了在大规模文本语料库上进行预训练,并在特定任务上进行微调的概念。
- 证明了无监督学习在语言建模中的有效性。
GPT-2
- 发布时间:2019年2月
- 架构:基于 Transformer
- 参数数量:15亿
- 训练数据:40GB 网络文本
- 主要特性:
- 显著增加了模型参数数量,提高了模型的生成能力。
- 展示了在多种任务上无需专门微调也能表现出色的通用性。