DeepSeek火爆，参数量、激活参数和预训练 token 量是什么？

最新推荐文章于 2025-03-25 10:12:25 发布

即兴小索奇

最新推荐文章于 2025-03-25 10:12:25 发布

阅读量7.4k

点赞数 7

分类专栏： ChatGPT& AI 文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_64880608/article/details/145360451

版权

ChatGPT& AI 专栏收录该内容

65 篇文章

订阅专栏

最近DeepSeek火爆，爆出了几个关键参数，分别是参数量、激活参数 和 预训练 token 量。

这里用通俗的语言给大家解释一下~

首先要知道1B 是 Billion（十亿）的缩写

参数量：671B（6710 亿）

想象你在一个庞大的图书馆中，图书馆里有大量的书籍，每本书里有无数的文字和句子。这些书籍中的每个字、每个句子都代表着一些“信息”，这些信息是你理解世界、学习语言的基础。而模型的参数量就是图书馆中的书籍数量——越多的书籍意味着能学到的知识越丰富。

GPT-3 的参数量是 175B（1750 亿）。这是一个非常大的数字，意味着 GPT-3 能学到很多知识，进行各种复杂的推理和文本生成。
DeepSeek-V3 拥有 671B（6710 亿）参数，几乎是 GPT-3 的 4 倍。这意味着它拥有更多的“知识”储备，能够理解和生成更加复杂的语言，处理更多的上下文和细节信息。

更大的参数量通常意味着模型的表现更强大，它可以理解更复杂的语句和概念，推理能力更强，生成的文本也更自然、精确。

激活参数：37B（370 亿）

在一次会议中，所有的书（对应模型的参数）都会被提供给你参考，但是你每次开会时只能查阅部分书籍，其他书籍暂时不会被使用。激活参数就像是你在每次会议中实际翻阅的书籍数量。尽管图书馆中有大量的书籍，但每次开会时你只会用到一部分书籍。

DeepSeek-V3 拥有 671B（6700 亿）参数，但是每次推理时并不会使用所有这些参数，而是只激活 37B（370 亿）个参数，这些激活的参数才会参与实际计算和推理。
这意味着尽管 DeepSeek-V3 的模型非常庞大，但它的计算在实际应用中是有限的，通过精巧的优化，模型可以动态地选择哪些部分参数用于推理，而不需要每次都使用全部参数。

激活参数是指在实际使用时，模型根据输入的文本数据，选择需要的部分参数来进行计算。37B 的激活参数表明，虽然模型庞大，但每次推理时只会激活一部分参数，从而提高计算效率。

预训练 token 量：14.8 万亿（14.8 trillion）

如果模型的学习过程是阅读书籍，那么token 就是书籍中的字词。模型通过大量的 token 来学习语言，就像一个学生通过阅读大量的书籍来学习知识。而预训练 token 量就是模型在训练过程中所阅读的所有字词的总量。

GPT-3 在训练时使用了约 5700 亿（570B）个 token，这意味着 GPT-3 阅读并学习了 5700 亿个字词来构建它的语言能力。
DeepSeek-V3 使用了 14.8 万亿（14.8 trillion）token 进行预训练，相当于它读了 14.8 万亿个字词，比 GPT-3 的训练数据多 近 3 倍。

更多的 token 意味着模型能接触到更广泛的语言样本，学习更多的语言模式和语法规则。这种“大量的阅读”让 DeepSeek-V3 能够理解更复杂的语言结构、语境和情感。它能够处理更多的输入内容，从而具备更强的泛化能力。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

即兴小索奇 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。