[AI Research] AI 模型中的“it”是数据集

模型效果的好坏,最重要的是数据集,而不是架构,超参数,优化器。


我现在已经在 OpenAI 工作了将近一年。在这段时间里,我训练了很多生成模型。比起任何人都有权利训练的要多。当我花费这些时间观察调整各种模型配置和超参数的效果时,有一件事让我印象深刻,那就是所有训练运行之间的相似之处。

我越来越清楚地认识到,这些模型确实以令人难以置信的程度逼近它们的数据集。这意味着它们不仅学会了什么是狗或猫,还学会了不重要的分布之间的插值频率,比如人类可能拍摄的照片或人类常写下的单词。

这表现为 - 长时间训练在相同数据集上,几乎每个具有足够权重和训练时间的模型都会收敛到相同的点。足够大的扩散卷积-联合产生与 ViT 生成器相同的图像。AR 抽样产生与扩散相同的图像。

这是一个令人惊讶的观察!它意味着模型行为不是由架构、超参数或优化器选择确定的。它是由您的数据集确定的,没有别的。其他一切都是为了高效地将计算逼近该数据集而采取的手段。

那么,当您提到“Lambda”、“ChatGPT”、“Bard”或“Claude”时,您所指的不是模型权重。而是数据集。


  • 9
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值