先上 “万恶之源”:Transformer
按机构分类
AI21 Labs
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2021-09 | Jurassic-1 (J1) | J1-Jumbo v1 (178B), | | | |
J1-Large v1 (7.5B), | | | | | |
J1-Grande v1 (17B) | AI21 Labs | [论文](https://uploads- | | | |
ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf) | | | | | |
, | | | | | |
官方文档, | | | | | |
[技术报告](https://uploads- | | | | | |
ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf) | | | | | |
受限 | | | | | |
Alibaba
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2019-08 | StructBert | structbert.en.large(340M), | | | |
structroberta.en.large(355M), | | | | | |
structbert.ch.large(330M) | Alibaba Group Inc. | | | | |
论文, | | | | | |
GitHub | | | | | |
模型 | | | | | |
Allen Institute for AI
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2018-02 | ELMo | Small(13.6M), | | | |
Medium(28.0M), | | | | | |
Original(93.6M) | Allen Institute for AI & | | | | |
University of Washington | 论文 | | | | |
模型 | | | | | |
Amazon
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2022-03 | DQ-BART | 与标准BART相比,参数减少了30倍 | Cornell University & | | |
AWS AI Labs & | | | | | |
University of Pennsylvania | 论文 | | | | |
Anthropic
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2021-12 | Anthropic-LM | Anthropic-LM v4-s3 (52B) | Anthropic | | |
论文1, | | | | | |
论文2 | 未开源 | | | | |
BAAI
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2021-06 | Wu Dao 2.0 | 1.75T | BAAI | 官网 | |
模型 | | | | | |
Baidu
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2019-05 | ERNIE | 114M | Baidu | GitHub, | |
论文 | | | | | |
模型 | | | | | |
BigScience
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2022-05 | T0pp | 11B | BigScience etc. | | |
论文 | | | | | |
模型 | | | | | |
2022-07 | BLOOM | 176B | BigScience | 论文 | |
模型 | | | | | |
2022-11 | BLOOMZ | 176B | BigScience etc. | | |
论文 | | | | | |
模型 | | | | | |
Cohere
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2022-06 | Cohere | Cohere xlarge v20220609 (52.4B), | | | |
Cohere large v20220720 (13.1B) , | | | | | |
Cohere medium v20220720 (6.1B) , | | | | | |
Cohere small v20220720 (410M) , | | | | | |
Cohere xlarge v20221108 (52.4B), | | | | | |
Cohere medium v20221108 (6.1B) | Cohere | 官网 | 受限 | | |
DeepMind
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2021-07 | AlphaFold | 21M | DeepMind etc. | | |
[论文](https://www.deepmind.com/publications/highly-accurate-protein-structure- | | | | | |
prediction-with-alphafold) | | | | | |
2021-12 | Gopher | 280B | DeepMind | 论文, | |
[官网](https://www.deepmind.com/blog/language-modelling-at-scale-gopher-ethical- | | | | | |
considerations-and-retrieval) | 未开源 | | | | |
2022-03 | Chincilla | 70B | DeepMind | 论文 | |
未开源 | | | | | |
2022-03 | GopherCite | 280B | Deepmind & | | |
University College London | 论文 | | | | |
2022-04 | Flamingo | 80B (largest) | Deepmind | | |
论文 | [flamingo- | | | | |
mini模型](https://huggingface.co/dhansmair/flamingo-mini) | | | | | |
2022-05 | Gato | 1.2B | Deepmind | | |
论文 | | | | | |
2022-09 | Sparrow | 70B | Deepmind | 论文 | |
EleutherAI
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2021-03 | GPT-Neo | 5B, | | | |
2.7B (XL) | EleutherAI | [论文](https://www.semanticscholar.org/paper/GPT- | | | |
Neo%3A-Large-Scale-Autoregressive-Language-with-Black- | | | | | |
Gao/7e5008713c404445dd8786753526f1a45b93de12) | | | | | |
模型 | | | | | |
2021-06 | GPT-J | 6B | EleutherAI | | |
博客 | | | | | |
模型 | | | | | |
2021-12 | StableDiffusion | 890M | LMU Munich & | | |
Stability.ai & | | | | | |
Eleuther.ai | 论文 | | | | |
模型 | | | | | |
2022-04 | GPT-NeoX | 20B | EleutherAI | | |
论文 | | | | | |
模型 | | | | | |
Google
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2018-10 | BERT | Base = 110M, | | | |
Large = 340M | Google AI Language | 论文 | | | |
模型 | | | | | |
2019-01 | Transformer XL | 151M | Carnegie Mellon University & | | |
Google Brain | 论文 | | | | |
模型 | | | | | |
2019-05 | XLNet | Base=117M, | | | |
Large=360M | Google AI Brain Team & | | | | |
Carnegie Mellon University | 论文 | | | | |
模型 | | | | | |
2019-09 | ALBERT | Base = 12M, | | | |
Large = 18M, | | | | | |
XLarge = 60M | Google Research & | | | | |
Toyota Technological Institute at Chicago | | | | | |
论文 | | | | | |
模型 | | | | | |
2019-10 | T5 | 11B | Google | 论文 | |
模型 | | | | | |
2019-12 | Pegasus | Base = 223M, | | | |
Large = 568M | Imperial College London & | | | | |
Google Research | 论文 | | | | |
模型 | | | | | |
2020-03 | ELECTRA | Base = 110M, | | | |
Large = 330M | Google Brain & Stanford University | | | | |
论文 | | | | | |
模型 | | | | | |
2020-07 | BigBird | 取决于整体架构 | Google Research | | |
论文 | | | | | |
模型 | | | | | |
2020-10 | ViT | 86M(Base) to 632M (Huge) | Google Research | | |
论文 | | | | | |
模型 | | | | | |
2021-01 | Switch | 1T | Google | 论文 | |
模型 | | | | | |
2021-06 | Decision Transformers | 117M | Google Brain & | | |
UC Berkeley & | | | | | |
Facebook AI Research | 论文 | | | | |
模型 | | | | | |
2021-12 | GLaM | 1.2T覆盖64个专业领域, | | | |
但只有96B被激活用于推理 | Google | 论文, | | | |
[官方博客](https://ai.googleblog.com/2021/12/more-efficient-in-context-learning- | | | | | |
with.html) | | | | | |
2022-01 | LAMDA | 137B | Google | 论文, | |
[官方博客](https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-and- | | | | | |
high.html) | | | | | |
2022-04 | PaLM | 540B | Google Research | | |
论文, | | | | | |
[官方博客](https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling- | | | | | |
to.html) | 未开源 | | | | |
2022-05 | UL2 | 20B | Google Research | | |
论文 | | | | | |
模型 | | | | | |
2022-06 | Imagen | 2B | Google Research | 论文, | |
官网 | | | | | |
2022-06 | Minerva | 540B | Google Research | | |
论文, | | | | | |
[官网](https://ai.googleblog.com/2022/06/minerva-solving-quantitative- | | | | | |
reasoning.html) | | | | | |
2022-12 | Flan-T5 | 11B | Google | 论文 | |
模型 | | | | | |
Huggingface
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2019-10 | DistilBERT | 66M | Huggingface | 论文 | |
模型 | | | | | |
iFLYTEK
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2020-11 | MacBert | MacBERT-large, Chinese(324M), | | | |
MacBERT-base, Chinese(102M) | iFLYTEK AI Research & | | | | |
Harbin Institute of Technology | 论文 | | | | |
模型 | | | | | |
Meta (Facebook)
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2019-07 | RoBERTa | 356M | Facebook AI & | | |
University of Washington | 论文 | | | | |
模型 | | | | | |
2019-10 | BART | 比 BERT 多 10% | Facebook AI | | |
论文 | | | | | |
模型 | | | | | |
2019-10 | XLM-RoBERTa | Base = 270M, | | | |
Large = 550M | Facebook AI | 论文 | | | |
模型 | | | | | |
2020-01 | mBART | 与BART相同 | Facebook AI Research | | |
论文 | | | | | |
模型 | | | | | |
2021-07 | HTML | 400M | Facebook AI & | | |
University of Washington | 论文 | | | | |
2022-01 | CM3 | 13B (largest) | Facebook AI Research | | |
论文 | | | | | |
2022-03 | SeeKer | 与基模型相同 | Facebook AI Research & | | |
ETH Zürich | 论文, | | | | |
官网 | | | | | |
2022-05 | OPT | 175B, | | | |
66B | Meta AI | 论文, | | | |
[官网](https://ai.facebook.com/blog/democratizing-access-to-large-scale- | | | | | |
language-models-with-opt-175b/) | | | | | |
模型 | | | | | |
2022-08 | BlenderBot3 | 175B | Meta AI & | | |
Mila/McGill University | 论文 | | | | |
blenderbot-3B模型, | | | | | |
模型 | | | | | |
2022-11 | Galatica | 120B | Meta AI | | |
论文 | | | | | |
模型 | | | | | |
Microsoft
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2019-03 | MT-DNN | 330M | Microsoft Research | | |
论文 | [模型](https://github.com/namisan/mt- | | | | |
dnn) | | | | | |
2019-05 | UniLM | 340M | Microsoft Research | | |
论文, | | | | | |
GitHub | | | | | |
模型 | | | | | |
2019-10 | DialoGPT | 1.5B | Microsoft Corporation | | |
论文 | | | | | |
模型 | | | | | |
2020-02 | Turing NLG | 17B | Microsoft | [官方博客](https://www.microsoft.com/en- | |
us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by- | | | | | |
microsoft/) | | | | | |
2021-03 | Swin Transformer | 29M-197M | Microsoft Research Asia | | |
GitHub , | | | | | |
论文 | | | | | |
模型 | | | | | |
NVidia
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2019-09 | Megatron-LM | 8.3B (GPT-like), | | | |
3.9B (BERT-like) | NVidia | 论文, | | | |
GitHub | | | | | |
2021-10 | Megatron Turing NLG | 530B | Microsoft & | | |
NVIDIA | 论文, | | | | |
[官方博客](https://www.microsoft.com/en-us/research/blog/using-deepspeed-and- | | | | | |
megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most- | | | | | |
powerful-generative-language-model/) | 未开源 | | | | |
2022-06 | Global Context ViT | 90M | NVidia | | |
论文 | | | | | |
OpenAI
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2018-06 | GPT | 117M | OpenAI | [论文](https://s3-us-west-2.amazonaws.com/openai- | |
assets/research-covers/language- | | | | | |
unsupervised/language_understanding_paper.pdf) | | | | | |
模型 | | | | | |
2019-02 | GPT-2 | 1.5B | OpenAI | [论文](https://d4mucfpksywv.cloudfront.net/better- | |
language-models/language_models_are_unsupervised_multitask_learners.pdf) | | | | | |
模型 | | | | | |
2020-05 | GPT-3 | GPT-3 davinci v1 (175B), | | | |
GPT-3 curie v1 (6.7B), | | | | | |
GPT-3 babbage v1 (1.3B), | | | | | |
GPT-3 ada v1 (350M) | OpenAI | 论文, | | | |
GitHub | 受限 | | | | |
2021-01 | DALL-E | 12B | OpenAI | 论文, | |
官方博客, | | | | | |
Demo | | | | | |
2021-02 | CLIP | 未知 | OpenAI | 论文, | |
GitHub | | | | | |
模型 | | | | | |
2021-07 | Codex | Codex davinci v2 (Unknow), | | | |
Codex davinci v1 (Unknow), | | | | | |
Codex cushman v1 (Unknow) | OpenAI | 论文 | | | |
受限 | | | | | |
2021-12 | GLIDE | 12B | OpenAI | 论文, | |
Demo | | | | | |
2022-01 | InstructGPT | InstructGPT davinci v2 (175B*), | | | |
InstructGPT davinci v1 (175B*), | | | | | |
InstructGPT curie v1 (6.7B*), | | | | | |
InstructGPT babbage v1 (1.3B*), | | | | | |
InstructGPT ada v1 (350M*) | OpenAI | | | | |
论文, | | | | | |
官网 | 受限 | | | | |
2022-04 | DALL-E-2 | 3.5B | OpenAI | 论文, | |
官网 | | | | | |
2022-10 | GPT-3.5 | 175B | OpenAI | [官网](https://platform.openai.com/docs/model- | |
index-for-researchers) | 未开源 | | | | |
2022-10 | ChatGPT | 与 GPT3 相同 | OpenAI | 官网 | |
未开源 | | | | | |
Salesforce
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2019-09 | CTRL | 1.63B | Salesforce Research | | |
论文 | | | | | |
模型 | | | | | |
Tsinghua University
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2020-10 | GLM | 130B | Tsinghua University & | | |
Zhipu.AI | 论文, | | | | |
Demo | | | | | |
10B版模型 | | | | | |
UC Berkeley
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2021-06 | Trajectory Transformers | 比 GPT 更小的架构 | UC Berkeley | | |
论文 | | | | | |
模型 | | | | | |
Yandex
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|
2022-06 | YaLM | 100B | Yandex | GitHub, | |
[博客](https://medium.com/yandex/yandex-publishes-yalm-100b-its-the-largest-gpt- | | | | | |
like-neural-network-in-open-source-d1df53d0e9a6) | | | | | |
模型 | | | | | |
持续更新中 …
由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓