AI 大模型开发公司 MosaicML 近日发布了新的可商用的开源大语言模型 MPT-30B,拥有 300 亿参数,其功能明显比前一代 MPT-7B 语言模型(70 亿参数)更强大,并且性能优于 GPT-3。
此外,他们还发布了两个经过微调的模型:MPT-30B-Instruct 和 MPT-30B-Chat,它们构建在 MPT-30B 之上,分别擅长单轮指令跟踪和多轮对话。
MPT-30B 模型具有的特点:
训练时的 8k token 上下文(context)窗口
通过 ALiBi 支持更长的上下文
通过 FlashAttention 实现高效的推理 + 训练性能
由于其预训练数据混合,MPT-30B 系列还具有强大的编码能力。
该模型已扩展到 NVIDIA H100 上的 8k token 上下文窗口,使其成为第一个在 H100 上训练的LLM。
丨MPT-30B 强于 GPT-3?
MPT-30B 是商业 Apache 2.0 许可的开源基础模型,强于原始的 GPT-3,并且与 LLaMa-30B 和 Falcon-40B 等其他开源模型具有竞争力。
(上图)MPT-30B 与 GPT-3 在九项上下文学习 (ICL) 任务上的零样本准确度。 MPT-30B 在九个指标中的六个指标上