符尧：我想为 MOSS 正名

最新推荐文章于 2024-11-16 13:52:27 发布

Evan-yzh

最新推荐文章于 2024-11-16 13:52:27 发布

阅读量256

点赞数

文章标签：人工智能机器学习深度学习自然语言处理大数据

原文链接：https://mp.weixin.qq.com/s?__biz=MzUyOTU2MjE1OA==&mid=2247500476&idx=1&sn=afa5d29895cee80cc42f9af47854f919&chksm=fa5dadfdcd2a24eb2b29bf579abfcf9ed7e307efb987e7eca1431216a28ba07278248e5ce8c4&scene=126&sessionid=0

版权

点击上方“AI遇见机器学习”，选择“星标”公众号

第一时间获取价值内容

知乎: Franx
链接: https://www.zhihu.com/question/596908242/answer/2996276211
编辑: 深度学习自然语言处理公众号

我是符尧，是先前《拆解追溯 GPT-3.5 各项能力的起源》这篇文章的作者。我认识 MOSS 的团队，但我跟 MOSS 没有合作关系。从第三方的角度，我想为 MOSS 正名。

先说结论：MOSS 这个模型，是全球（全球，不只是中文）开源界做得最前沿，最彻底，最完备的模型，远远领先基于 LLaMA 做 SFT 的一众模型（如 Alpaca）。MOSS 的意义，是它跑通了除 scaling 之外的几乎全部大模型开发的 pipeline: multi-lingual continue training, data engineering, supervised finetuning, RLHF, tool using, and safety，完成了一个真正意义上的可行性验证。

然后讲为什么 MOSS 好：

1. 跑通除了 scaling 之外的 pipeline

大模型的开发是一个非常复杂的流程，主要分为 scaling 和 alignment。scaling 的目标是建立一个强大的基础模型（比如 Google 540B 的 PaLM），alignment 的目标，是把模型训练得符合人类的期望。Alignment 的本身又包括一系列的子任务，包括：multi-lingual continue training, data engineering, supervised finetuning, RLHF, tool using, and safety.

为什么说 MOSS 是一个可行性验证？因为 MOSS 把上述的 alignment 一系列操作全部跑通了，与之相比：

大部分已有的英文社区的开源模型并没有做中文 continue training 这一步，比如 alpaca 就没有做
大部分已有的英文社区的开源模型只做到 MOSS 的子集，比如 Alpaca 就只做 data engineering 和 SFT，或者 ColossalChat，做到了 data engineering + SFT + RL，但没考虑 tool using 和 safety

2. 数据代码全部开源

已有的项目，有些只开源数据，有些只开源模型权重，有些甚至就完全不开源；MOSS 把该跑通的都跑通了，且还把整个 pipeline 开源了

3. 专门为 safety 做了优化

这一点极其重要，因为当前节点，中文社区对于大模型的追逐都倾向于重视能力，忽略安全，但 MOSS 专门为模型安全做了优化，引导模型拥有正确的价值观（MOSS 的一个例子是，当用户要求 MOSS 写一封女儿没考好让人失望的信的时候，MOSS 的回复是一封鼓励女儿下次努力的信）。

然后是关于 MOSS 的一些常见问题的第三方视角的解答：

1. MOSS 的效果没有特别好

这个主要是因为 MOSS 的基础模型是 CodeGen，这个模型本身不大行；如果 MOSS 的基础模型换成 65B 的 LLaMA，它的效果会提升很多

2. MOSS 的数据存在从 GPT 中 distill 的部分

确实，这件事情当前是一个灰色地带；但另外需要注意的事情是，OpenAI 在训练 GPT 的时候，他们自己用了多少并没有得到用户同意的数据，也是一件讲不清楚的事情。GPT 训练的本身用到了特别多开源界的数据，然后回头又不让开源界用它的数据，这件事情似乎并不公平

当然，MOSS 也有其局限性：

1. MOSS 的效果确实没有已有的选手们好

所以 MOSS Scaling 的团队要再加把劲儿！

2. MOSS 并没有跑通推理能力相关的优化

在语言模型的演化中，最具有区分度的一项能力，就是推理能力。随便聊聊这种事情，稍微训练一下大家都能做好，但真的要做复杂任务的时候，大小模型的区分就会非常明显（大模型和小模型具体的区别可以看这个项目）。从这个角度来说，模型跟程序员一样：chitchat is cheap, show me the reasoning

要想让模型推理能力增强，MOSS 的团队可以考虑以下三个操作

Scaling up: 基础模型换一个更大的
Chain-of-thought finetuning: 用 CoT 的数据做 SFT，具体操作有一些细节，可以看这篇文章^[1]
Process and outcome based reward modeling: 用推理结论的正确与否作为 reward 来做 RL，可以来这篇文章^[2]

即使 MOSS 有局限性，我们也应该鼓励，因为：

1. 敏锐的学术判断力

MOSS 的团队在去年 12 月一见到 ChatGPT 之后，马上就集中火力全部开干这一个项目，比很多其他的项目都早且彻底。我个人在去年 12 月的时候跟邱老师聊过，当时邱老师还对 GPT 很懵，但仅仅过了两个月在二月份再跟邱老师聊的时候，他和他的团队就对 GPT 系列的全流程和很多重点环节有着很好的 insight 且当时就做完了 SFT，这个速度远超我的预期

2. 踏实做事的精神

在 2 月份的时候 MOSS 初次内测，有一些机构托我找 MOSS 的一作天祥给 talk，天祥全拒绝了，说要干活，搞完再说

3. 开源精神

MOSS 团队在资源有限的情况下，把能做的都做了，然后把做了的都开源了，开源这件事情在当前大公司逐渐封闭化，中文互联网碎片化的大环境下，尤为重要。

最后还有一些个人观点

在 2022 年 12 月，ChatGPT 发布的那一瞬间，全球所有的学校，无论是 Stanford MIT 这样的名校，还是中国一个山旮旯里面随便一个三本，全部回到了同一起跑线上，因为 LLM 的存在让学术界重新洗牌，大家全部从头开始学。在一片抱怨 openai 不开源，抱怨没有卡，抱怨没有数据的声音中，MOSS 开发组选择了当机立断，全速狂飙。四个月之后看阶段性结果，MOSS 的完成度显著高于 Alpaca -- 在重新起跑之后，复旦走在了 Stanford 的前面
学术界的重新洗牌是一个历史性的机遇：你不会的东西，MIT 也不会。所以在这个时候，能不能把握机遇，做出真正前瞻性的，创造性的学术项目，而不是模仿的，更不是抄 Alpaca 的，是衡量国内学校实力的重要指标
舆论应该对国内的学术项目更加鼓励，更加包容，而不是嘲讽。MOSS 就是一个学校的项目，它开始做的时候 LLaMA 还没出来，CodeGen 是他们能跑起来的最大最好的模型（虽然也不咋地），但他们真的把能做的都做了

欢迎大家加入我的这个”AIGC与GPT“知识星球，目前已有100+人，欢迎大家快速加入

作为一个大厂算法工程师和机器学习技术博主，我希望这个星球可以：

【最全免费资源】免费chatgpt，最新AIGC和GPT相关pdf报告和手册。
【最专业算法知识】Transformer、RLHF方法、多模态解读及其论文分享。
【最新变现姿势】如何结合ChatGPT应用落地，各种可以作为副业的AIGC变现方式，打好这个信息差。
【最有趣AICG】ChatGPT+midjourney拍电影，制作壁纸，漫画等等有趣的AICG内容分享。

另外这里会保存我收集的各种关于AIGC的资源和资料，包括AI绘画-midjourney，ChatGPT， GPT-4，百度-文心一言的各种资料。会保持持续更新，欢迎大家自行拿取。（网盘地址和密码在知识星球自取！）

Evan-yzh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫