MPT模型【MosaicML公司】

u013250861

已于 2023-07-12 23:58:25 修改

阅读量273

点赞数

分类专栏： LLM 文章标签：人工智能

于 2023-07-12 23:57:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/131692672

版权

LLM 专栏收录该内容

124 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

AI 大模型开发公司 MosaicML 近日发布了新的可商用的开源大语言模型 MPT-30B，拥有 300 亿参数，其功能明显比前一代 MPT-7B 语言模型（70 亿参数）更强大，并且性能优于 GPT-3。

此外，他们还发布了两个经过微调的模型：MPT-30B-Instruct 和 MPT-30B-Chat，它们构建在 MPT-30B 之上，分别擅长单轮指令跟踪和多轮对话。

MPT-30B 模型具有的特点：

训练时的 8k token 上下文（context）窗口

通过 ALiBi 支持更长的上下文

通过 FlashAttention 实现高效的推理 + 训练性能

由于其预训练数据混合，MPT-30B 系列还具有强大的编码能力。

该模型已扩展到 NVIDIA H100 上的 8k token 上下文窗口，使其成为第一个在 H100 上训练的LLM。

丨MPT-30B 强于 GPT-3?

MPT-30B 是商业 Apache 2.0 许可的开源基础模型，强于原始的 GPT-3，并且与 LLaMa-30B 和 Falcon-40B 等其他开源模型具有竞争力。

（上图）MPT-30B 与 GPT-3 在九项上下文学习 (ICL) 任务上的零样本准确度。 MPT-30B 在九个指标中的六个指标上

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。