独家对话：国产“紫东太初”大模型数据负责人朱贵波博士-CSDN博客

本文链接：https://blog.csdn.net/weixin_39640818/article/details/144440123

漫画原创：亲爱的数据

紫东太初3.0发布之后两周，

我再次和朱贵波博士在北京一家奈雪奶茶店面聊，

这也是我2024年北京的最后一场会面。

第二天，我踏上飞往美国旧金山的航班。

朱贵波博士是武汉人工智能研究院研究员，

担任国家科技创新重大项目课题负责人，

科技部重大专项任务负责人，

主持国家自然科学基金2项。

他全程负责，

紫东太初大模型数据团队组建与发展。

一直以来，

大模型数据负责人均异常神秘，

很多人说数据技术是工程，

但是，国内不少数据团队负责人，

拥有博士学位。

话题，从自研打开，

“自研，或者不自研大模型，

和数据有什么关系？”

“自研，你就会更懂模型，

进而更懂数据，进而更懂模型……”

他回答道。

这真是一个良性循环，我感慨了一句。

此前，我也深刻体会到，

数据是大模型最大的谜题之一，

你不能只了解模型，

不了解数据。

大模型与数据是密不可分的工程难题。

时间迈入2024年最后一个月，

我在美国湾区了解到，

很多湾区公司的“数据”不会，

也不可能交给外包团队，

由全职数据工程师，

与机器学习工程师处理。

哪怕数据进度落后，

阻碍了模型推进进度，

也不会改变这种方式。

那怎么办？

在数据上，

加人，

加资源。

比如，苹果公司的用户数据，

会被留在用户手机上，

公司无权接触，

更别说拿来给模型训练了。

北京时间12月11日晚间，

Siri整合ChatGPT，

为保护用户隐私，

OpenAI甚至无法存储用户请求数据。

而且，苹果公司总部的进厂访问，

也是全湾区最严格的，

没有之一。

同期，OpenAI也发射一波进展

强化微调（Reinforcement Fine-Tuning），

供用尤妙，

如果你不懂“强化学习”

肯定难理解“强化微调”。

朱贵波博士对强化微调的看法是：

模态数据都可词元化（Token），

已经可实现从单一模态编码，

到跨模态原生多模态解码，

支持多模态输入，

多种模态任务的学习；

强化微调将强化学习和监督微调有机结合，

大幅降低不同场景落地任务的数据需求量。

不过目前应用范围，

仍然偏向有明确目标和结果的任务。

我们来整体看看，

朱贵波博士的数据理念。

（一）实验越自由，越细致，越理解

自研大模型的整个过程，

是许多团队难以接触的深水区，

完整经历这个过程，

会大大加强对“数据情况”的把控力。

工程实现里藏着对数据理解的宝藏，

更大的实验自由度，

可以让人细致了解到：

大模型受不同数据影响后的状态，

甚至其中的小模块的微妙状态。

涉及的关键问题也很多，

根据不同的目标

（如对话、编程、数学题、

图像生成、科学计算），

简单说就是三点：

“比例”“时机”“平衡”，

所谓“配方”，

就是选择合适的数据和模型架构，

与模型任务合理配合。

所谓“时机”，

数据加入，

必与时宜，

流水线上不同阶段，

加什么样的数据。

所谓“平衡”，

大模型往往需要处理多种任务，

比如，对话生成、

代码生成、

数学推理、

图像生成等。

不同任务的数据规模、

质量、复杂性可能有很大差异。

多任务共享一个模型时，

用数据平衡任务间的竞争。

（二）配方

配方很重要。

大模型的“智商”，

取决于很多因素，

喂给它的数据比例是否合理很重要。

而语音大模型、

视觉大模型等不同类型的模型，

其数据配比不一样。

每种模型都需要自行摸索，

GPT也没有公开配比，

这也是各家做大模型的核心武器之一。

选择适当“配方”，

可大大提升模型的表现。

为此，近来，配方的工具有变化，

演进为“小模型”。

那么，在“小模型”之前都有什么办法？

答案是：

经验和直觉，

统计分析和可视化，

从公开论文或研究中学习其他团队的数据使用策略。

模仿知名数据集的分布。

以前，小模型的结果作为一种间接配方验证工具，

但这些小模型往往不是专门设计&#x