在AI模型训练架构尚未革新以前,数据仍是核心“秘籍”

原文发布于搜狐科技旗下“硅谷AI见闻”公众号

2月21日-23日,2025全球开发者先锋大会在上海举办。

在“浦江AI生态论坛”结束后,围绕AI圈近期出现的热门新模型、开源、及未来AI发展趋势等话题,硅谷AI见闻与上海人工智能实验室青年科学家何聪辉,进行了深度对话。

作为OpenDataLab/MinerU 开源项目的创始人,何聪辉对近期热门模型DeepSeek取得的成绩,及开源分享研究成果的做法表示肯定和敬佩。

“一定还会有超越DeepSeek的团队存在。”何聪辉认为,“但是,模型架构未有范式级突破前,数据优化仍是最具性价比的演进路径。”

以下为对话实录(经整理编辑)

AI见闻:数据是模型训练的“粮食”。很多人说AI大模型训练遭遇了数据“瓶颈”,公开可用的数据近乎用完,是这样吗?

何聪辉:主流模型的训练语料在过去4年间提升了3个数量级,对数据需求快速增强,全网数据预计将在 2026-2028 年使用完毕。

AI见闻那大模型再想得到能力提升,是否有突破瓶颈的现实路径?

何聪辉:确实面临结构性的挑战。在公开数据方面,大家将在来源相对同质化的互联网数据中进一步比拼数据质量,这仍然有较大的优化空间;在私域数据方面,虽然中国人口多,产业多,沉淀了大量私域数据,但当前能被大模型广泛使用并带来显著模型性能提升的数据没有预期多。

此外,现在模型的“智商”已经到较高水平,要寻找模型学的还不够的数据,比如“高知识密度”数据。

AI见闻该怎么理解“高知识密度”的数据?

何聪辉:是超出一般水平,包含更加深刻知识和见解的数据。比如科学领域的硕士、博士级别的专业数据,甚至包括博士、博士生导师和科学家们思考深度过程的数据。

AI见闻比如论文?能给个更加简单易懂的例子吗?

何聪辉:论文更多的是最后科研成果的展现,“高知识密度”数据还包括论文撰写中的思考和迭代过程的数据。

以大家常见的数学题为例,我们关注的不仅是问题的最终答案,还包括解题过程中的思考步骤,甚至是试错的过程,都是极高价值的。

AI见闻比起公开可获取的网络数据,这种“高知识密度”数据看起来不太好获取吧?

何聪辉:这并不容易,OpenAI和海内外的一些大厂都会找人专业的人员做数据标注,或是用数据合成的技术去扩充数据。上海 AI Lab 启动的“AI4S 攀登者计划”也将和高校联合构建此类高质量数据。

AI见闻听您介绍下来,“数据”仍是AI模型下一阶段发展的核心驱动力?还有很多能做的工作?

何聪辉:数据的价值随着对模型的深入理解能够被持续挖掘。目前语言大模型主要考虑的是文本模态数据,未来数据在不同模态(如音频、图像、视频)间的融合或许能进一步释放数据价值。

因此在模型架构未有范式级突破前,我认为数据仍是最具性价比的演进路径。

AI见闻怪不得看DeepSeek、Grok模型虽然都在说开源,但其实数据部分并没有公开。是因为足够重要,才保密起来?

何聪辉:一方面数据确实是核心竞争力,另外或许也会有数据合规的方面的考量。

AI见闻看DeepSeek说,将继续开源5个代码库,您有什么期待?

何聪辉:作为大模型的数据方面的从业者,我希望能在数据集构建、数据处理管线、数据合成方法等领域向 DeepSeek 学习。另外,也期待DeepSeek在高效模型训练和推理等方面工作的开源。

AI见闻您怎么看马斯克新发的Grok 3模型?有人评价,Grok 3使用了上百倍数量的卡,但效率提升只有10%,您怎么看?

何聪辉:这恰好印证了数据质量的重要性,DeepSeek-R1在 V3 的基础上通过强化学习和数据蒸馏以更低的成本达到相当的效果。背后也折射出两条技术哲学,一个“大力出奇迹”,一个是“四两拨千斤”。

不过,从长期模型发展而言,拥有更多算力资源仍然是巨大的优势,有着更多的试错和迭代空间。

AI见闻关注到您是开源项目OpenDataLab和 MinerU的创始人,这两个项目在开发者社区中获得广泛的认可,您觉得开源对AI发展生态到底意味着什么?为什么会坚持走开源这条路?

何聪辉:开源正在快速重构 AI 产业生态,也在改变竞争规则。数据、模型和工具链的开源,加速了 AI技术的民主化,让大家不用“重复造轮子”,聚焦在已有成果上的二次创新。

例如,我们开源的 MinerU 智能文档解析工具,能够打通私域数据到大模型可用数据的最后一公里,在发布短短几个月内在 Github 上获得 2.6 万个星标,加速了数据准备、模型迭代和落地的效率。

另外,开源的透明度会促进 AI 的安全可信,推动AI治理和可持续发展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值