从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型

先上 “万恶之源”:Transformer
在这里插入图片描述


按机构分类

AI21 Labs

发布时间模型名称参数量机构相关链接开源
2021-09Jurassic-1 (J1)J1-Jumbo v1 (178B),
J1-Large v1 (7.5B),
J1-Grande v1 (17B)AI21 Labs[论文](https://uploads-
ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf)
,
官方文档,
[技术报告](https://uploads-
ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf)
受限

Alibaba

发布时间模型名称参数量机构相关链接开源
2019-08StructBertstructbert.en.large(340M),
structroberta.en.large(355M),
structbert.ch.large(330M)Alibaba Group Inc.
论文,
GitHub
模型

Allen Institute for AI

发布时间模型名称参数量机构相关链接开源
2018-02ELMoSmall(13.6M),
Medium(28.0M),
Original(93.6M)Allen Institute for AI &
University of Washington论文
模型

Amazon

发布时间模型名称参数量机构相关链接开源
2022-03DQ-BART与标准BART相比,参数减少了30倍Cornell University &
AWS AI Labs &
University of Pennsylvania论文

Anthropic

发布时间模型名称参数量机构相关链接开源
2021-12Anthropic-LMAnthropic-LM v4-s3 (52B)Anthropic
论文1,
论文2未开源

BAAI

发布时间模型名称参数量机构相关链接开源
2021-06Wu Dao 2.01.75TBAAI官网
模型

Baidu

发布时间模型名称参数量机构相关链接开源
2019-05ERNIE114MBaiduGitHub,
论文
模型

BigScience

发布时间模型名称参数量机构相关链接开源
2022-05T0pp11BBigScience etc.
论文
模型
2022-07BLOOM176BBigScience论文
模型
2022-11BLOOMZ176BBigScience etc.
论文
模型

Cohere

发布时间模型名称参数量机构相关链接开源
2022-06CohereCohere xlarge v20220609 (52.4B),
Cohere large v20220720 (13.1B) ,
Cohere medium v20220720 (6.1B) ,
Cohere small v20220720 (410M) ,
Cohere xlarge v20221108 (52.4B),
Cohere medium v20221108 (6.1B)Cohere官网受限

DeepMind

发布时间模型名称参数量机构相关链接开源
2021-07AlphaFold21MDeepMind etc.
[论文](https://www.deepmind.com/publications/highly-accurate-protein-structure-
prediction-with-alphafold)
2021-12Gopher280BDeepMind论文,
[官网](https://www.deepmind.com/blog/language-modelling-at-scale-gopher-ethical-
considerations-and-retrieval)未开源
2022-03Chincilla70BDeepMind论文
未开源
2022-03GopherCite280BDeepmind &
University College London论文
2022-04Flamingo80B (largest)Deepmind
论文[flamingo-
mini模型](https://huggingface.co/dhansmair/flamingo-mini)
2022-05Gato1.2BDeepmind
论文
2022-09Sparrow70BDeepmind论文

EleutherAI

发布时间模型名称参数量机构相关链接开源
2021-03GPT-Neo5B,
2.7B (XL)EleutherAI[论文](https://www.semanticscholar.org/paper/GPT-
Neo%3A-Large-Scale-Autoregressive-Language-with-Black-
Gao/7e5008713c404445dd8786753526f1a45b93de12)
模型
2021-06GPT-J6BEleutherAI
博客
模型
2021-12StableDiffusion890MLMU Munich &
Stability.ai &
Eleuther.ai论文
模型
2022-04GPT-NeoX20BEleutherAI
论文
模型

Google

发布时间模型名称参数量机构相关链接开源
2018-10BERTBase = 110M,
Large = 340MGoogle AI Language论文
模型
2019-01Transformer XL151MCarnegie Mellon University &
Google Brain论文
模型
2019-05XLNetBase=117M,
Large=360MGoogle AI Brain Team &
Carnegie Mellon University论文
模型
2019-09ALBERTBase = 12M,
Large = 18M,
XLarge = 60MGoogle Research &
Toyota Technological Institute at Chicago
论文
模型
2019-10T511BGoogle论文
模型
2019-12PegasusBase = 223M,
Large = 568MImperial College London &
Google Research论文
模型
2020-03ELECTRABase = 110M,
Large = 330MGoogle Brain & Stanford University
论文
模型
2020-07BigBird取决于整体架构Google Research
论文
模型
2020-10ViT86M(Base) to 632M (Huge)Google Research
论文
模型
2021-01Switch1TGoogle论文
模型
2021-06Decision Transformers117MGoogle Brain &
UC Berkeley &
Facebook AI Research论文
模型
2021-12GLaM1.2T覆盖64个专业领域,
但只有96B被激活用于推理Google论文,
[官方博客](https://ai.googleblog.com/2021/12/more-efficient-in-context-learning-
with.html)
2022-01LAMDA137BGoogle论文,
[官方博客](https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-and-
high.html)
2022-04PaLM540BGoogle Research
论文,
[官方博客](https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-
to.html)未开源
2022-05UL220BGoogle Research
论文
模型
2022-06Imagen2BGoogle Research论文,
官网
2022-06Minerva540BGoogle Research
论文,
[官网](https://ai.googleblog.com/2022/06/minerva-solving-quantitative-
reasoning.html)
2022-12Flan-T511BGoogle论文
模型

Huggingface

发布时间模型名称参数量机构相关链接开源
2019-10DistilBERT66MHuggingface论文
模型

iFLYTEK

发布时间模型名称参数量机构相关链接开源
2020-11MacBertMacBERT-large, Chinese(324M),
MacBERT-base, Chinese(102M)iFLYTEK AI Research &
Harbin Institute of Technology论文
模型

Meta (Facebook)

发布时间模型名称参数量机构相关链接开源
2019-07RoBERTa356MFacebook AI &
University of Washington论文
模型
2019-10BART比 BERT 多 10%Facebook AI
论文
模型
2019-10XLM-RoBERTaBase = 270M,
Large = 550MFacebook AI论文
模型
2020-01mBART与BART相同Facebook AI Research
论文
模型
2021-07HTML400MFacebook AI &
University of Washington论文
2022-01CM313B (largest)Facebook AI Research
论文
2022-03SeeKer与基模型相同Facebook AI Research &
ETH Zürich论文,
官网
2022-05OPT175B,
66BMeta AI论文,
[官网](https://ai.facebook.com/blog/democratizing-access-to-large-scale-
language-models-with-opt-175b/)
模型
2022-08BlenderBot3175BMeta AI &
Mila/McGill University论文
blenderbot-3B模型,
模型
2022-11Galatica120BMeta AI
论文
模型

Microsoft

发布时间模型名称参数量机构相关链接开源
2019-03MT-DNN330MMicrosoft Research
论文[模型](https://github.com/namisan/mt-
dnn)
2019-05UniLM340MMicrosoft Research
论文,
GitHub
模型
2019-10DialoGPT1.5BMicrosoft Corporation
论文
模型
2020-02Turing NLG17BMicrosoft[官方博客](https://www.microsoft.com/en-
us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-
microsoft/)
2021-03Swin Transformer29M-197MMicrosoft Research Asia
GitHub ,
论文
模型

NVidia

发布时间模型名称参数量机构相关链接开源
2019-09Megatron-LM8.3B (GPT-like),
3.9B (BERT-like)NVidia论文,
GitHub
2021-10Megatron Turing NLG530BMicrosoft &
NVIDIA论文,
[官方博客](https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-
megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-
powerful-generative-language-model/)未开源
2022-06Global Context ViT90MNVidia
论文

OpenAI

发布时间模型名称参数量机构相关链接开源
2018-06GPT117MOpenAI[论文](https://s3-us-west-2.amazonaws.com/openai-
assets/research-covers/language-
unsupervised/language_understanding_paper.pdf)
模型
2019-02GPT-21.5BOpenAI[论文](https://d4mucfpksywv.cloudfront.net/better-
language-models/language_models_are_unsupervised_multitask_learners.pdf)
模型
2020-05GPT-3GPT-3 davinci v1 (175B),
GPT-3 curie v1 (6.7B),
GPT-3 babbage v1 (1.3B),
GPT-3 ada v1 (350M)OpenAI论文,
GitHub受限
2021-01DALL-E12BOpenAI论文,
官方博客,
Demo
2021-02CLIP未知OpenAI论文,
GitHub
模型
2021-07CodexCodex davinci v2 (Unknow),
Codex davinci v1 (Unknow),
Codex cushman v1 (Unknow)OpenAI论文
受限
2021-12GLIDE12BOpenAI论文,
Demo
2022-01InstructGPTInstructGPT davinci v2 (175B*),
InstructGPT davinci v1 (175B*),
InstructGPT curie v1 (6.7B*),
InstructGPT babbage v1 (1.3B*),
InstructGPT ada v1 (350M*)OpenAI
论文,
官网受限
2022-04DALL-E-23.5BOpenAI论文,
官网
2022-10GPT-3.5175BOpenAI[官网](https://platform.openai.com/docs/model-
index-for-researchers)未开源
2022-10ChatGPT与 GPT3 相同OpenAI官网
未开源

Salesforce

发布时间模型名称参数量机构相关链接开源
2019-09CTRL1.63BSalesforce Research
论文
模型

Tsinghua University

发布时间模型名称参数量机构相关链接开源
2020-10GLM130BTsinghua University &
Zhipu.AI论文,
Demo
10B版模型

UC Berkeley

发布时间模型名称参数量机构相关链接开源
2021-06Trajectory Transformers比 GPT 更小的架构UC Berkeley
论文
模型

Yandex

发布时间模型名称参数量机构相关链接开源
2022-06YaLM100BYandexGitHub,
[博客](https://medium.com/yandex/yandex-publishes-yalm-100b-its-the-largest-gpt-
like-neural-network-in-open-source-d1df53d0e9a6)
模型

持续更新中 …

由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值