DeepSeek火爆,参数量、激活参数 和 预训练 token 量 是什么?

最近DeepSeek火爆,爆出了几个关键参数,分别是参数量激活参数预训练 token 量。

这里用通俗的语言给大家解释一下~

首先要知道1B 是 Billion(十亿)的缩写

参数量:671B(6710 亿)

想象你在一个庞大的图书馆中,图书馆里有大量的书籍,每本书里有无数的文字和句子。这些书籍中的每个字、每个句子都代表着一些“信息”,这些信息是你理解世界、学习语言的基础。而模型的参数量就是图书馆中的书籍数量——越多的书籍意味着能学到的知识越丰富。
  • GPT-3 的参数量是 175B(1750 亿)。这是一个非常大的数字,意味着 GPT-3 能学到很多知识,进行各种复杂的推理和文本生成。
  • DeepSeek-V3 拥有 671B(6710 亿)参数,几乎是 GPT-3 的 4 倍。这意味着它拥有更多的“知识”储备,能够理解和生成更加复杂的语言,处理更多的上下文和细节信息。

更大的参数量通常意味着模型的表现更强大,它可以理解更复杂的语句和概念,推理能力更强,生成的文本也更自然、精确。

激活参数:37B(370 亿)

在一次会议中,所有的书(对应模型的参数)都会被提供给你参考,但是你每次开会时只能查阅部分书籍,其他书籍暂时不会被使用。激活参数就像是你在每次会议中实际翻阅的书籍数量。尽管图书馆中有大量的书籍,但每次开会时你只会用到一部分书籍。
  • DeepSeek-V3 拥有 671B(6700 亿)参数,但是每次推理时并不会使用所有这些参数,而是只激活 37B(370 亿)个参数,这些激活的参数才会参与实际计算和推理。
  • 这意味着尽管 DeepSeek-V3 的模型非常庞大,但它的计算在实际应用中是有限的,通过精巧的优化,模型可以动态地选择哪些部分参数用于推理,而不需要每次都使用全部参数。

激活参数是指在实际使用时,模型根据输入的文本数据,选择需要的部分参数来进行计算。37B 的激活参数表明,虽然模型庞大,但每次推理时只会激活一部分参数,从而提高计算效率。

预训练 token 量:14.8 万亿(14.8 trillion)

如果模型的学习过程是阅读书籍,那么token 就是书籍中的字词。模型通过大量的 token 来学习语言,就像一个学生通过阅读大量的书籍来学习知识。而预训练 token 量就是模型在训练过程中所阅读的所有字词的总量。
  • GPT-3 在训练时使用了约 5700 亿(570B)个 token,这意味着 GPT-3 阅读并学习了 5700 亿个字词来构建它的语言能力。
  • DeepSeek-V3 使用了 14.8 万亿(14.8 trillion)token 进行预训练,相当于它读了 14.8 万亿个字词,比 GPT-3 的训练数据多 近 3 倍

更多的 token 意味着模型能接触到更广泛的语言样本,学习更多的语言模式和语法规则。这种“大量的阅读”让 DeepSeek-V3 能够理解更复杂的语言结构、语境和情感。它能够处理更多的输入内容,从而具备更强的泛化能力。

### DeepSeekToken 的定义用途 在讨论 DeepSeek 中的 token 之前,理解一般意义上的 token 是必要的。Token 表示自然语言处理 (NLP) 机器学习领域中的最小单位[^3]。对于不同的模型技术栈而言,token 的具体实现可能有所不同。 #### DeepSeekToken 的定义 在 DeepSeek 生态系统内,token 主要指代输入文本被分割后的离散单元。这些单元可以是单词、子词或是特定字符序列。这种分词方法有助于提高模型的理解能力效率。例如,在构建冷启动数据的过程中,DeepSeek 使用特殊的 token 来结构化输出格式,即 `| special_token | <推理过程> | special_token | <摘要>` 这样的形式[^2]。 #### Token 的用途 1. **输入表示** - 对于任何基于 Transformer 架构的语言模型来说,将原始文本转换成 tokens 是第一步操作。这样做不仅简化了计算机对复杂语句的理解难度,还使得不同长度的句子能够统一处理。 2. **优化资源利用** - 在实际应用中,合理控制每条请求所消耗的 token可以帮助降低运行成本并提升整体系统的吞吐率。特别是当涉及到像 DeepSeek-V3 这样具有较高性能需求的应用场景时,有效的 token 管理显得尤为重要[^1]。 3. **增强表达能力** - 特殊类型的 tokens 能够赋予模型更强的表现力。比如上述提到的 cold start 数据集里使用的特殊标记,它们允许开发者自定义输出样式,从而改善用户体验以及结果的质。 ```python import openai def count_tokens(text): response = openai.Tokenizer.create().encode(text).tokens return len(response) example_text = "这是一个测试字符串" print(f"The number of tokens is {count_tokens(example_text)}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

即兴小索奇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值