大模型(LLM)总结

最新推荐文章于 2024-09-03 00:02:44 发布

AI研究院

最新推荐文章于 2024-09-03 00:02:44 发布

阅读量676

点赞数

文章标签：人工智能

原文链接：https://research.aimultiple.com/large-language-models/

版权

本文汇总了当前主要的大模型，包括Meta的LLaMA和OPT，Google的T5、mT5、UL2、PaLM和LaMDA，以及BigScience的BLOOM等，涵盖了不同规模和应用场景的大型语言模型，大部分模型已开源。

摘要由CSDN通过智能技术生成

大模型（大型语言模型，LLMs）是当下AI和NLP研究与产业中最重要的方向之一。

本文将对当下的主流大模型进行总结。（*更新于2023.03.19）

本文将参数规模在1B以上的模型视为大模型。

模型一览

Model	作者	Size	类型	开源？
LLaMa	Meta AI	7B-65B	Decoder	open
OPT	Meta AI	125M-175B	Decoder	open
T5	Google	220M-11B	Encoder-Decoder	open
mT5	Google	235M-13B	Encoder-Decoder	open
UL2	Google	20B	Encoder-Decoder	open
PaLM	Google	540B	Decoder	no
LaMDA	Google	2B-137B	Decoder	no
FLAN-T5	Google	同T5	Encoder-Decoder	open
FLAN-UL2	Google	同U2	Encoder-Decoder	open
FLAN-PaLM	Google	同PaLM	Decoder	no
FLAN	Google	同LaMDA	Decoder	no
BLOOM	BigScience	176B	Decoder	open
T0	BigScience	3B	Decoder	open
BLOOMZ	BigScience	同BLOOM	Decoder	open
mT0	BigScience	同T0	Decoder	open
GPT-Neo	EleutherAI	125M-2.7B	Decoder	open
GPT-NeoX	EleutherAI	20B	Decoder	open
GPT3	OpenAI	175B (davinci)	Decoder	no
GPT4	OpenAI	unknown	OpenAI	no
InstructGPT	OpenAI	1.3B	Decoder	no
Alpaca	Stanford	同LLaMa	Decoder	open

Meta/Facebook AI

LLaMA: Open and Efficient Foundation Language Models

https://arxiv.org/pdf/2302.13971v1.pdfarxiv.org/pdf/2302.13971v1.pdf

https://github.com/facebookresearch/llamagithub.com/facebookresearch/llama

OPT: Open Pre-trained Transformer Language Models

https://arxiv.org/pdf/2205.01068.pdfarxiv.org/pdf/2205.01068.pdf

GitHub - facebookresearch/metaseq: Repo for external large-scale workgithub.com/facebookresearch/metaseq正在上传…重新上传取消

Google

T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

https://arxiv.org/pdf/1910.10683.pdfarxiv.org/pdf/1910.10683.pdf

https://github.com/google-research/text-to-text-transfer-transformergithub.com/google-research/text-to-text-transfer-transformer

注：T5的代码和模型同样open source在hugging face平台。

google (Google AI)huggingface.co/google?sort_models=likes#models正在上传…重新上传取消

mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer

https://arxiv.org/pdf/2010.11934.pdfarxiv.org/pdf/2010.11934.pdf

https://huggingface.co/models?search=mt5huggingface.co/models?search=mt5

UL2 and Flan-UL2: Unifying Language Learning Paradigms

https://arxiv.org/pdf/2205.05131.pdfarxiv.org/pdf/2205.05131.pdf

blog：

https://www.yitay.net/blog/flan-ul2-20bwww.yitay.net/blog/flan-ul2-20b

model：

google/ul2 · Hugging Facehuggingface.co/google/ul2正在上传…重新上传取消

google/flan-ul2 · Hugging Facehuggingface.co/google/flan-ul2正在上传…重新上传取消

PaLM: Scaling Language Modeling with Pathways

https://arxiv.org/pdf/2204.02311.pdfarxiv.org/pdf/2204.02311.pdf

LaMDA: Language Models for Dialog Applications

https://arxiv.org/pdf/2201.08239.pdfarxiv.org/pdf/2201.08239.pdf

blog:

https://blog.google/technology/ai/lamda/blog.google/technology/ai/lamda/

Flan-T5 and Flan-PaLM: Scaling Instruction-Finetuned Language Models

https://arxiv.org/pdf/2210.11416.pdfarxiv.org/pdf/2210.11416.pdf

google/flan-t5-large · Hugging Facehuggingface.co/google/flan-t5-large正在上传…重新上传取消

Flan: FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS

https://arxiv.org/pdf/2109.01652.pdfarxiv.org/pdf/2109.01652.pdf

**注释：在谷歌的命名体系中，前缀Flan基本等于该模型经过了instruct-tuning。

BigScience (非盈利兴趣组织)

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

https://arxiv.org/pdf/2211.05100.pdfarxiv.org/pdf/2211.05100.pdf

bigscience/bloom · Hugging Facehuggingface.co/bigscience/bloom正在上传…重新上传取消

T0: MULTITASK PROMPTED TRAINING ENABLES ZERO-SHOT TASK GENERALIZATION

https://arxiv.org/pdf/2110.08207.pdfarxiv.org/pdf/2110.08207.pdf

https://huggingface.co/bigscience/T0huggingface.co/bigscience/T0

BLOOMZ and mT0: Multilingual version of BLOOM and T0

https://arxiv.org/pdf/2211.01786.pdfarxiv.org/pdf/2211.01786.pdf

EleutherAI

GPT-NEO

https://github.com/EleutherAI/gpt-neogithub.com/EleutherAI/gpt-neo

GPT-NeoX

https://arxiv.org/pdf/2204.06745.pdfarxiv.org/pdf/2204.06745.pdf

https://huggingface.co/EleutherAI/gpt-neox-20bhuggingface.co/EleutherAI/gpt-neox-20b

OpenAI

OpenAI的大模型自GPT3起都没有开源，关于OpenAI GPT 系列模型的API参见：

九号：OpenAI API 所有 GPT Models 详解47 赞同 · 0 评论文章

Stanford

Alpaca，LLaMA的指令微调模型，效果达到GPT-3.5水平。

https://github.com/tatsu-lab/stanford_alpacagithub.com/tatsu-lab/stanford_alpaca

最新：Prompt/Instruct Tuning 开源数据总结

九号：总结开源可用的Instruct/Prompt Tuning数据440 赞同 · 4 评论文章

**如有本文未提到的大模型，欢迎读者评论区留言。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

AI研究院 CSDN认证博客专家 CSDN认证企业博客

码龄10年

66: 原创

9万+: 周排名

10万+: 总排名

12万+: 访问

: 等级

1211: 积分

74: 粉丝

52: 获赞

11: 评论

364: 收藏

私信

关注

热门文章

分类专栏

最新评论

GPT-4的20个起飞的姿势
R StrangeInterpret: 这是翻译过来的？乍得GPT可还行
大模型有什么用，从技术上看
萤火之喵: 博主的分享很有价值，训练过程就是很麻烦的，而且服务器性能不好的话时间成本比较高，在训练部分不如直接租一个A100卡，autodl，inscode和炼丹侠都可以租用，在A100上基本上大部分的中小型训练任务都能完成，炼丹侠现在可以免费试用，而且云上服务器使用过程中还省去了自己配置环境的步骤。
大模型有什么用，从技术上看
萤火之喵: 支持up，另外提一句，推理的话最好还是选一个性能比较好的服务器，这样在处理多任务的时候不会出现资源抢占的问题，再好的并发处理也不如一个性能好的服务器，我就是在autodl，inscode和炼丹侠中选了一个服务器在处理我的推理任务，炼丹侠的A100速度快，性能高，省去了很多麻烦，现在还有免费试用活动，可以去试试。
一些人工智能工具
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616689996?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。