复旦大学自然语言处理实验室邱锡鹏教授团队上线 MOSS 两个月后,把 MOSS 开源了。
目前开源的版本是 MOSS 003,二月份公开邀请内测的版本为 MOSS 002,一月份有一个内部测试版本叫做 OpenChat 001。
在 MOSS 003 中,复旦团队采用不同的技术路线,通过让Moss和人类以及其他对话模型都进行交互,显著提升了学习效率和研发效率,短时间内就高效完成了对话能力训练。
MOSS 成为国内首个公开亮相的类ChatGPT语言模型,也是国内首个搭载插件系统的开源对话语言模型, “端到端”走通了大语言模型的开发全程。
MOSS 的成长过程
复旦 NLP 团队成员孙天祥公布了 MOSS成长过程。
ChatGPT 问世后,国内 NLP 从业者受到冲击很大,当时没有 llama 也没有 alpaca,团队普遍认为国内技术距离 ChatGPT 有一到两年的技术差距。
要做 ChatGPT 有两个部分是很昂贵的,一个是数据标注,一个是预训练算力。团队没有算力,便去构造数据——从 OpenAI 的论文附录里扒了一些它们API收集到的user prompt,然后用类似Self-Instruc
复旦大学自然语言处理实验室邱锡鹏教授团队开源了MOSS,这是国内首个类ChatGPT的开源对话语言模型,具备指令遵循、多轮对话和跨语言对齐能力。团队通过创造性地使用数据和训练方法,在有限的资源下推进了大模型的研发。MOSS003已在100B中文token上训练,总训练量达700B,并有插件增强功能。尽管仍处于初期阶段,MOSS的成功展示了国内科研团队在这一领域的技术实力。
订阅专栏 解锁全文
1023

被折叠的 条评论
为什么被折叠?



