模型名称 | 发布时间 | 参数量 | 基本原理和训练方法 | 技术亮点(特色) |
---|---|---|---|---|
GPT-1 | 2018年6月 | 约1.17亿 | 使用了Transformer架构,通过大规模无监督学习预训练,然后在特定任务上进行微调。 | - 首个将Transformer架构与无监督预训练结合的大型语言模型。 - 展示了强大的文本生成能力。 |
GPT-2 | 2019年2月 | 15亿 | 扩展了GPT-1的参数规模,采用了更大的数据集进行无监督预训练,提升了模型的表现力。 | - 显著增强了文本生成的质量和多样性。 - 引入了更复杂的自然语言理解和生成任务的能力。 |
GPT-3 | 2020年6月 | 1750亿 | 进一步扩大了参数规模,使用了更多的训练数据,引入了上下文学习技术,使得模型能够在没有微调的情况下完成新任务。 | - 参数量大幅提升,显著提高了自然语言理解和生成能力。 - 支持广泛的下游任务,如翻译、问答等。 - 引入了上下文学习(In-Context Learning)。 |
DALL·E | 2021年1月 | 未公开具体参数量 | 结合了文本到图像生成的技术,采用了一种类似于GAN(生成对抗网络)的方法来生成图像,同时利用大量的图文对数据进行训练。 | - 图像生成模型,能够根据文本描述创建逼真的 |
OpenAI 模型发展汇总
于 2024-12-29 17:56:29 首次发布