Qwen预训练并未终结~

最新推荐文章于 2025-05-21 15:58:32 发布

小天才学习机打游戏

最新推荐文章于 2025-05-21 15:58:32 发布

阅读量991

点赞数 21

文章标签：人工智能深度学习机器学习前端 java 数据库语言模型

本文链接：https://blog.csdn.net/m0_59164520/article/details/144568497

版权

前天，OpenAI 的联合创始人兼前首席科学家 Ilya Sutskever 在全球 AI 顶会上NeurIPS发表演讲并宣判：数据不再增长，预训练将终结。

然而，Qwen团队成员对此表达自己的观点：我完全同意智能体、合成数据和推理时计算是超级智能的关键突破，但我认为开放的 LLM 社区仍然需要坚持预训练一段时间。

实现真正的“覆盖整个互联网”仍然是一个挑战。例如，Qwen2.5使用了18万亿个token进行预训练，但这个数据集仍然无法涵盖所有知识领域——尤其是小众和长尾领域。它也无法充分覆盖不断演变的信息。展望未来，Qwen3在预训练期间将需要更多的token来实现实质性的改进。此外，数据清洗仍然是一个关键瓶颈。目前，社区尚未掌握数据清洗的最佳实践，也未能实现对高质量数据集的成本效益访问。因此，开发可扩展的数据工程解决方案仍然是首要任务。
模型规模的扩大也带来了训练挑战。例如，Llama 405B的表现未达到预期，这表明只有少数组织真正掌握了训练超大型模型的技术。而且，这些技术还远未完全公开。为了使更多人参与这个领域，我们需要创新的训练方法和更健壮的模型设计，以减轻将模型扩展到更大尺寸时的风险。或者，确定实现预期结果的最佳模型尺寸至关重要。
我们必须承认的事实是，合成数据和后训练都基本上受限于预训练（基础）模型的质量。我假设o1的成功来自于预训练和后训练阶段的共同努力。在开放社区能够生产出与OpenAI开发的模型一样强大的预训练模型之前，我们不能放弃预训练努力。

总的来说，我们缺乏关于Ilya提到的最先进的预训练模型的关键细节——比如它们的token数量、参数大小和实际性能——这造成了不透明性，使得我们难以评估预训练是否真的达到了极限。开放社区依赖高质量的预训练模型来推动下游研究。如果预训练停止，社区可能会在后训练进步中遇到瓶颈。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述