从 ELMo 到 ChatGPT：历数 NLP 近 5 年必看大模型

最新推荐文章于 2024-09-13 22:31:07 发布

程序员鬼鬼

最新推荐文章于 2024-09-13 22:31:07 发布

阅读量914

点赞数 30

文章标签： chatgpt 自然语言处理人工智能 AIGC 语言模型开源

本文链接：https://blog.csdn.net/shanguicsdn111/article/details/140052889

版权

先上 “万恶之源”：Transformer
在这里插入图片描述

按机构分类

AI21 Labs

发布时间	模型名称	参数量
2021-09	Jurassic-1 (J1)	J1-Jumbo v1 (178B),
J1-Large v1 (7.5B),
J1-Grande v1 (17B)	AI21 Labs	[论文](https://uploads-
ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf)
,
官方文档,
[技术报告](https://uploads-
ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf)
受限

Alibaba

发布时间	模型名称	参数量
2019-08	StructBert	structbert.en.large(340M),
structroberta.en.large(355M),
structbert.ch.large(330M)	Alibaba Group Inc.
论文,
GitHub
模型

Allen Institute for AI

发布时间	模型名称	参数量
2018-02	ELMo	Small(13.6M),
Medium(28.0M),
Original(93.6M)	Allen Institute for AI &
University of Washington	论文
模型

Amazon

发布时间	模型名称	参数量	机构
2022-03	DQ-BART	与标准BART相比，参数减少了30倍	Cornell University &
AWS AI Labs &
University of Pennsylvania	论文

Anthropic

发布时间	模型名称	参数量	机构
2021-12	Anthropic-LM	Anthropic-LM v4-s3 (52B)	Anthropic
论文1,
论文2	未开源

BAAI

发布时间	模型名称	参数量	机构	相关链接	开源
2021-06	Wu Dao 2.0	1.75T	BAAI	官网
模型

Baidu

发布时间	模型名称	参数量	机构	相关链接
2019-05	ERNIE	114M	Baidu	GitHub,
论文
模型

BigScience

发布时间	模型名称	参数量	机构	相关链接
2022-05	T0pp	11B	BigScience etc.
论文
模型
2022-07	BLOOM	176B	BigScience	论文
模型
2022-11	BLOOMZ	176B	BigScience etc.
论文
模型

Cohere

发布时间	模型名称	参数量	机构
2022-06	Cohere	Cohere xlarge v20220609 (52.4B),
Cohere large v20220720 (13.1B) ,
Cohere medium v20220720 (6.1B) ,
Cohere small v20220720 (410M) ,
Cohere xlarge v20221108 (52.4B),
Cohere medium v20221108 (6.1B)	Cohere	官网	受限

DeepMind

发布时间	模型名称	参数量	机构	相关链接
2021-07	AlphaFold	21M	DeepMind etc.
[论文](https://www.deepmind.com/publications/highly-accurate-protein-structure-
prediction-with-alphafold)
2021-12	Gopher	280B	DeepMind	论文,
[官网](https://www.deepmind.com/blog/language-modelling-at-scale-gopher-ethical-
considerations-and-retrieval)	未开源
2022-03	Chincilla	70B	DeepMind	论文
未开源
2022-03	GopherCite	280B	Deepmind &
University College London	论文
2022-04	Flamingo	80B (largest)	Deepmind
论文	[flamingo-
mini模型](https://huggingface.co/dhansmair/flamingo-mini)
2022-05	Gato	1.2B	Deepmind
论文
2022-09	Sparrow	70B	Deepmind	论文

EleutherAI

发布时间	模型名称	参数量	机构
2021-03	GPT-Neo	5B,
2.7B (XL)	EleutherAI	[论文](https://www.semanticscholar.org/paper/GPT-
Neo%3A-Large-Scale-Autoregressive-Language-with-Black-
Gao/7e5008713c404445dd8786753526f1a45b93de12)
模型
2021-06	GPT-J	6B	EleutherAI
博客
模型
2021-12	StableDiffusion	890M	LMU Munich &
Stability.ai &
Eleuther.ai	论文
模型
2022-04	GPT-NeoX	20B	EleutherAI
论文
模型

Google

发布时间	模型名称	参数量	机构	相关链接
2018-10	BERT	Base = 110M,
Large = 340M	Google AI Language	论文
模型
2019-01	Transformer XL	151M	Carnegie Mellon University &
Google Brain	论文
模型
2019-05	XLNet	Base=117M,
Large=360M	Google AI Brain Team &
Carnegie Mellon University	论文
模型
2019-09	ALBERT	Base = 12M,
Large = 18M,
XLarge = 60M	Google Research &
Toyota Technological Institute at Chicago
论文
模型
2019-10	T5	11B	Google	论文
模型
2019-12	Pegasus	Base = 223M,
Large = 568M	Imperial College London &
Google Research	论文
模型
2020-03	ELECTRA	Base = 110M,
Large = 330M	Google Brain & Stanford University
论文
模型
2020-07	BigBird	取决于整体架构	Google Research
论文
模型
2020-10	ViT	86M(Base) to 632M (Huge)	Google Research
论文
模型
2021-01	Switch	1T	Google	论文
模型
2021-06	Decision Transformers	117M	Google Brain &
UC Berkeley &
Facebook AI Research	论文
模型
2021-12	GLaM	1.2T覆盖64个专业领域，
但只有96B被激活用于推理	Google	论文,
[官方博客](https://ai.googleblog.com/2021/12/more-efficient-in-context-learning-
with.html)
2022-01	LAMDA	137B	Google	论文,
[官方博客](https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-and-
high.html)
2022-04	PaLM	540B	Google Research
论文,
[官方博客](https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-
to.html)	未开源
2022-05	UL2	20B	Google Research
论文
模型
2022-06	Imagen	2B	Google Research	论文,
官网
2022-06	Minerva	540B	Google Research
论文,
[官网](https://ai.googleblog.com/2022/06/minerva-solving-quantitative-
reasoning.html)
2022-12	Flan-T5	11B	Google	论文
模型

Huggingface

发布时间	模型名称	参数量	机构	相关链接	开源
2019-10	DistilBERT	66M	Huggingface	论文
模型

iFLYTEK

发布时间	模型名称	参数量
2020-11	MacBert	MacBERT-large, Chinese(324M),
MacBERT-base, Chinese(102M)	iFLYTEK AI Research &
Harbin Institute of Technology	论文
模型

Meta (Facebook)

发布时间	模型名称	参数量	机构
2019-07	RoBERTa	356M	Facebook AI &
University of Washington	论文
模型
2019-10	BART	比 BERT 多 10%	Facebook AI
论文
模型
2019-10	XLM-RoBERTa	Base = 270M,
Large = 550M	Facebook AI	论文
模型
2020-01	mBART	与BART相同	Facebook AI Research
论文
模型
2021-07	HTML	400M	Facebook AI &
University of Washington	论文
2022-01	CM3	13B (largest)	Facebook AI Research
论文
2022-03	SeeKer	与基模型相同	Facebook AI Research &
ETH Zürich	论文,
官网
2022-05	OPT	175B,
66B	Meta AI	论文,
[官网](https://ai.facebook.com/blog/democratizing-access-to-large-scale-
language-models-with-opt-175b/)
模型
2022-08	BlenderBot3	175B	Meta AI &
Mila/McGill University	论文
blenderbot-3B模型,
模型
2022-11	Galatica	120B	Meta AI
论文
模型

Microsoft

发布时间	模型名称	参数量	机构	相关链接
2019-03	MT-DNN	330M	Microsoft Research
论文	[模型](https://github.com/namisan/mt-
dnn)
2019-05	UniLM	340M	Microsoft Research
论文,
GitHub
模型
2019-10	DialoGPT	1.5B	Microsoft Corporation
论文
模型
2020-02	Turing NLG	17B	Microsoft	[官方博客](https://www.microsoft.com/en-
us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-
microsoft/)
2021-03	Swin Transformer	29M-197M	Microsoft Research Asia
GitHub ,
论文
模型

NVidia

发布时间	模型名称	参数量	机构
2019-09	Megatron-LM	8.3B (GPT-like),
3.9B (BERT-like)	NVidia	论文,
GitHub
2021-10	Megatron Turing NLG	530B	Microsoft &
NVIDIA	论文,
[官方博客](https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-
megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-
powerful-generative-language-model/)	未开源
2022-06	Global Context ViT	90M	NVidia
论文

OpenAI

发布时间	模型名称	参数量	机构	相关链接
2018-06	GPT	117M	OpenAI	[论文](https://s3-us-west-2.amazonaws.com/openai-
assets/research-covers/language-
unsupervised/language_understanding_paper.pdf)
模型
2019-02	GPT-2	1.5B	OpenAI	[论文](https://d4mucfpksywv.cloudfront.net/better-
language-models/language_models_are_unsupervised_multitask_learners.pdf)
模型
2020-05	GPT-3	GPT-3 davinci v1 (175B),
GPT-3 curie v1 (6.7B),
GPT-3 babbage v1 (1.3B),
GPT-3 ada v1 (350M)	OpenAI	论文,
GitHub	受限
2021-01	DALL-E	12B	OpenAI	论文,
官方博客,
Demo
2021-02	CLIP	未知	OpenAI	论文,
GitHub
模型
2021-07	Codex	Codex davinci v2 (Unknow),
Codex davinci v1 (Unknow),
Codex cushman v1 (Unknow)	OpenAI	论文
受限
2021-12	GLIDE	12B	OpenAI	论文,
Demo
2022-01	InstructGPT	InstructGPT davinci v2 (175B*),
InstructGPT davinci v1 (175B*),
InstructGPT curie v1 (6.7B*),
InstructGPT babbage v1 (1.3B*),
InstructGPT ada v1 (350M*)	OpenAI
论文,
官网	受限
2022-04	DALL-E-2	3.5B	OpenAI	论文,
官网
2022-10	GPT-3.5	175B	OpenAI	[官网](https://platform.openai.com/docs/model-
index-for-researchers)	未开源
2022-10	ChatGPT	与 GPT3 相同	OpenAI	官网
未开源

Salesforce

发布时间	模型名称	参数量	机构
2019-09	CTRL	1.63B	Salesforce Research
论文
模型

Tsinghua University

发布时间	模型名称	参数量	机构
2020-10	GLM	130B	Tsinghua University &
Zhipu.AI	论文,
Demo
10B版模型

UC Berkeley

发布时间	模型名称	参数量	机构
2021-06	Trajectory Transformers	比 GPT 更小的架构	UC Berkeley
论文
模型

Yandex

发布时间	模型名称	参数量	机构	相关链接
2022-06	YaLM	100B	Yandex	GitHub,
[博客](https://medium.com/yandex/yandex-publishes-yalm-100b-its-the-largest-gpt-
like-neural-network-in-open-source-d1df53d0e9a6)
模型