复旦大学自然语言处理实验室邱锡鹏教授团队上线 MOSS 两个月后,把 MOSS 开源了。
目前开源的版本是 MOSS 003,二月份公开邀请内测的版本为 MOSS 002,一月份有一个内部测试版本叫做 OpenChat 001。
在 MOSS 003 中,复旦团队采用不同的技术路线,通过让Moss和人类以及其他对话模型都进行交互,显著提升了学习效率和研发效率,短时间内就高效完成了对话能力训练。
MOSS 成为国内首个公开亮相的类ChatGPT语言模型,也是国内首个搭载插件系统的开源对话语言模型, “端到端”走通了大语言模型的开发全程。
MOSS 的成长过程
复旦 NLP 团队成员孙天祥公布了 MOSS成长过程。
ChatGPT 问世后,国内 NLP 从业者受到冲击很大,当时没有 llama 也没有 alpaca,团队普遍认为国内技术距离 ChatGPT 有一到两年的技术差距。
要做 ChatGPT 有两个部分是很昂贵的,一个是数据标注,一个是预训练算力。团队没有算力,便去构造数据——从 OpenAI 的论文附录里扒了一些它们API收集到的user prompt,然后用类似Self-Instruc