董董灿是个攻城狮-CSDN博客

原创 Transformer 通关秘籍12：什么是 Seq2Seq 模型？

Seq2Seq (Sequence-to-Sequence，序列到序列) 是一种用于处理序列数据的神经网络结构。序列数据指的是有一定先后关系的数据，比如一段文字或者一段语音，都可以认为是序列数据，处理这种数据的模型就可以认为是 Seq2Seq 模型。序列任务的应用场景有很多，比如机器翻译就是最典型的场景。对于机器翻译来说，输入是一种语言，输出是另一种语言，且输入和输出的语言长度不是固定的，而是根据实际翻译效果变化的。就像上面的例子，输入是 7 个文字，而输出只有 3 个英文单词。

2025-06-09 10:31:31 354

原创 Transformer 通关秘籍11：Word2Vec 及工具的使用

Word2Vec 可以非常有效的创建词嵌入向量，你可以把它理解为是一个算法模型，也可以理解为是一个工具包。它 2013 年由 Google 推出，自问世以来，一直被广泛的应用在自然语言处理的词嵌入向量的表达过程中，它可以完成文本到词向量的映射，同时保留文本在向量空间的语义关系。关于文本在向量空间的语义关系，可以参考10、词向量运算：queen=king-man+wowem的内容。

2025-05-28 10:25:45 1035

原创 Transformer 通关秘籍10：词向量运算：queen=king-man+wowem

经过前面的介绍，相信你搞懂了词嵌入向量所代表的是单词在高维空间的特征表示了。在学习词嵌入向量的过程中，一个最著名的理解词嵌入向量在高维数学空间的例子，莫过于实现 queen = king - Man + Woman 的数学运算了。本节将从这个例子出发，揭示词向量背后的隐藏含义，并在最后附上通过GoogleVec的预训练模型来实现上述词向量运算的Python代码。本文在撰写时参考了很多国外的优秀博客，参考链接在文章最后。

2025-05-27 20:42:29 923

原创 Transformer 通关秘籍9：词向量的数值实际上是特征

在前面的文章中，大概花费了几节的篇幅，详细介绍了 token 以及词嵌入向量的概念。到这里，你应该可以理解了：在计算机的眼里，所有的文本首先都要经过分词转换为 token ，然后再使用词嵌入算法将 token 转换为词向量。如果还有不理解的相关内容，可以返回前述几节再详细阅读一下，或者在本节下留言。本节将通过一个例子，来帮你更加通俗的理解词嵌入向量代表的含义：实际上，词向量中的数值，代表的是单词的语义在各个维度上的特征。

2025-04-03 10:07:41 743

原创 Transformer 通关秘籍8：词向量如何表示近义词？

在进行文本处理之前，文本转换为词嵌入向量是必须的，并且要转换为具有多个维度的高维向量，以此来衡量文本的语义。在GPT-4的词嵌入空间中，推荐使用余弦相似度来衡量向量的“距离”，这是因为 GPT-4 把嵌入向量标准化到了1，从而使得余弦相似度与欧氏距离在衡量向量相似性上具有一样的排名。在其他的场景下，也可以使用余弦相似度这一指标来衡量向量的相似性。比如衡量两个文本或图像是否相似，直接计算其余弦相似度，也是一种简单有效的办法。

2025-04-02 19:32:49 793

原创 Transformer 通关秘籍7：词向量的通俗理解

首先，词嵌入的作用，是将整数（这里就理解为 token ID 就好了）转换为一个固定大小的向量。这些转换过程可以通过模型的大规模训练来完成。转换完之后的向量可以捕获以及表达 token 之间的复杂关系，比如语义关系、语法关系等。这些向量通常被称为嵌入向量，用多维数据进行表示，每一维都代表 token 的一些隐含特征。举个例子，假设 cat 转换为词嵌入向量后为 [100, 200, 300]。这里是为了举例子，用了一个仅包含3个特征（通常情况下为512个特征）的向量。

2025-04-01 14:59:42 580

原创 Transformer 通关秘籍6：词汇表：文本到数值的转换

前面几节一直在介绍 token 相关的内容，相信你看到这里，对 token 肯定很了解了吧。如果对 token 本身还有其他疑问，可以在本文下留言。本节开始，进入下一步骤，由 token 到数值的转换。以上3个步骤中，每一个其背后都有重要的意义和作用。本节先介绍第一个步骤：文本到数值的转换。

2025-03-31 10:51:51 979

原创一文学会 Qwen2-0.5B+Lora+alpaca_zh 微调实战，附完整可运行源代码

预训练大模型在训练过程中，虽然学到了很多通用知识，但是很多时候，大模型本身并不能在专业领域表现得非常好。比如你让 Qwen 模型回答“量子力学中的叠加态是什么”，它可能会给出一个笼统的解释，但要是让模型严格按照某一格式（比如论文格式）回答时，可能就不太行。除非你在上下文聊天中给他一些例子让他先自我学习。这也被称为“上下文学习能力 + Few-shot”的方式，但这并不改变模型的本质。一旦你切换了与模型聊天的上下文，模型又会恢复到它原来的样子。

2025-03-27 19:49:13 668

原创 Transformer 通关秘籍5：GPT4 模型的 tokenization 的可视化网站

在前面几节，你了解了 token 的概念以及对文本进行分词的大致过程后。本节给出一个使用 GPT4 模型（当前 OpenAI 最强大的模型）拆分 token 并将拆分结果进行可视化的网站，你可以去这个网站上测试一下分词效果。网址：https://platform.openai.com/ tokenizer。

2025-03-27 10:10:40 464

原创 Transformer 通关秘籍2：利用 BERT 将文本 token 化

前面两节分别通过两个代码示例展示了模型将文本转换为 token 之后是什么样的，希望你可以对此有一个感性的认识。本节来简要介绍一下将一个连续的文本转换为 token 序列的大致过程，这个过程被称为分词，也叫 tokenization。在你没了解这方面的知识之前，如果让你实现一个类似的算法，你会如何来实现呢？我想你可能最先想到便是使用空格来进行分词。

2025-03-26 16:39:17 846

原创 Transformer 通关秘籍3：利用 GPT2 将文本 token 化

在上一节，利用 BERT 模型将一个文本进行了 token 化。那你可能会问，是不是所有的模型将同一个文本 token 化之后，结果都一样呢？当然不是。这是因为不同的模型对文本进行 token 化时使用到的算法不一样。在 BERT 中用到的是 WordPiece 算法，而 GPT 系列模型将文本进行 token 化时，使用的则是 Byte-Pair Encoding（BPE）算法，这两种算法虽然不是本专栏的重点，但后面也会专门来讲解一下。

2025-03-25 07:56:48 447

原创 Transformer 通关秘籍2：利用 BERT 将文本 token 化

在上一节，我们介绍了 token 的概念。你可以这么认为， token 是自然语言处理场景（如文本生成、AI聊天）下，AI 模型能够处理的最小单位。在计算机视觉中，模型以像素为单位来处理图像像素之间的关系，而语言模型则是以 token 为单位理解 token 之间的关系。下面通过一个小例子，来展示一下语言模型是如何将一段文本转换为 token 的，以及模型将文本转换为 token 之后是什么样子。

2025-03-24 10:47:45 548

原创利用 Resnet50 微调图像分类模型，完成宠物数据集的识别，附源代码。。

微调其实很简单，就是用一个已经预训练过的模型(预训练模型)，稍微调整一下模型中某些层的权值，使其可以在新的任务上表现的更好。ResNet 本身是一个深度卷积神经网络模型，这个模型在 ImageNet 数据集（包含 1000 种物品）上已经训练过了。所以，我们可以认为，这个模型已经学会了图像识别的基础技能，比如怎么识别图像的边缘、颜色和形状等。如果我们想用它来进一步识别宠物，其实不用从零开始训练，在这个预训练模型的基础上进行微调，才是一个更好地选择。

2025-03-18 15:27:10 499

原创利用 Resnet50 重新训练，完成宠物数据集的识别，附源代码。。

ResNet50 是一个深度卷积神经网络，包含 50 层，设计用来处理图像分类任务。它在 ImageNet 数据集上表现优异，能识别 1000 种物体。我们今天的目标是重新训练它，让它学会识别新的类别——37 种宠物。选择 ResNet50 的理由很简单——成熟的结构，它已经被广泛验证，适合大多数图像分类任务。开箱即用：PyTorch 提供了现成的实现，省去自己设计的麻烦。高效性：即使从零开始训练，也能得到不错的结果。下面，我们将训练过程拆成几个关键步骤，逐步讲解。

2025-03-18 15:16:58 1388

原创 Transformer 通关秘籍1：什么是 token？

在计算机相关领域中，token 通常是指一串字符或符号。比如微信公众平台的密钥，就被称作一个 token，其实就是一长串的字符串。在人工智能领域，尤其是自然语言处理(Natural Language Processing, NLP)领域中， “token” 指的是处理文本时所能处理的最小单元或基本元素。它可以是一个单词、一个词组、一个标点符号、一个子词或者一个字符。

2025-03-09 11:29:51 710

原创一文看懂 Claude 3.7 Sonnet，为什么是第一个融合推理模式的 AI 模型

AI 生成答案时，通常会消耗“计算资源”，这个计算过程可以看作是“AI 在思考”。Claude 3.7 Sonnet 允许开发者设定 AI 思考的时间上限，也就是可以控制 AI“思考多久”再输出答案。快速模式（短时间思考）：适用于客户服务、普通对话等对速度要求较高的任务。深度模式（长时间思考）：适用于数学推理、编程、科学计算等需要精准性的任务。N=500：AI 仅消耗 500 个 token，适用于快速回复。N=10,000。

2025-02-25 10:52:25 1559

原创 DeepSeek 技术原理大揭秘，爆肝 10 小时，一篇就够！（1/3）

DeepSeek-R1 的训练过程也类似，如果直接用强化学习（RL）进行训练，那么 AI 一开始就会像一个“什么都不会的孩子”，不断犯错，生成一堆毫无逻辑的答案，甚至可能陷入无意义的循环。所以，可以认为 DeepSeek-R1 是在 R1-Zero 的基础上，通过额外的训练步骤优化了推理质量，避免了重复回答、提高了可读性，并且能更好地对齐人类偏好。可以看出，DeepSeek-R1 通过冷启动数据显著提升了数学推理、代码推理等任务的准确率，并且在生成答案的可读性上远超 DeepSeek-R1-Zero。

2025-02-06 10:16:57 1866 1

原创 DeepSeek R1技术报告关键解析(10/10)：如何进一步提升 AI 推理能力

未来 AI 的推理能力仍然有很大的提升空间，DeepSeek-R1 只是 AI 推理能力发展中的一个阶段性成果。通过优化长链推理、提升泛化能力、发展多模态推理和提高推理效率，AI 在未来可能会具备更接近人类的推理能力，甚至在某些任务上超越人类。我创建了一个《小而精的AI学习圈》知识星球，星球上有几十万字原创高质量的技术专栏分享，同时你也可以在星球向我提问。点击这里，我们星球见！点击这里查看所有 AI 技术专栏。

2025-02-05 17:20:01 921

原创 DeepSeek R1技术报告关键解析(9/10)：强化学习也不是万能的

强化学习虽然能够提升 AI 的推理能力，但它并非完美的方法，在训练 DeepSeek-R1 的过程中，研究人员遇到了训练不稳定、推理能力受限、奖励黑客问题和计算成本高等挑战。尽管如此，研究团队通过冷启动数据、拒绝采样、知识蒸馏和多阶段训练策略，成功提升了 AI 的推理能力。我创建了一个《小而精的AI学习圈》知识星球，星球上有几十万字原创高质量的技术专栏分享，同时你也可以在星球向我提问。点击这里，我们星球见！点击这里查看所有 AI 技术专栏。

2025-02-05 17:18:26 802

原创 DeepSeek R1技术报告关键解析(8/10)：DeepSeek-R1 的“aha 时刻”，AI 自主学习的新突破

在强化学习过程中，AI 的推理能力并不是线性增长的，而是会经历一些关键的“顿悟”时刻，研究人员将其称为“aha 时刻”。这是 AI 在训练过程中突然学会了一种新的推理方式，或者能够主动发现并修正自己的错误，就像人类在学习时偶尔会有的“豁然开朗”时刻。在 DeepSeek-R1 的训练过程中，研究人员观察到 AI 逐步形成了自我验证、自我反思、推理链优化等能力，这些能力的出现往往是非线性的，意味着 AI 在某个阶段突然学会了更高效的推理方法，而不是缓慢积累的过程。

2025-02-05 17:15:42 2479 1

原创 DeepSeek R1技术报告关键解析(7/10)：多阶段训练策略，如何优化 AI 的推理能力

多阶段训练策略是 DeepSeek-R1 能够在数学推理、代码推理等任务上超越传统 AI 训练方法的关键。通过冷启动数据、强化学习、拒绝采样和监督微调相结合，AI 在推理任务上的能力得到了显著提升。我创建了一个《小而精的AI学习圈》知识星球，星球上有几十万字原创高质量的技术专栏分享，同时你也可以在星球向我提问。点击这里，我们星球见！点击这里查看所有 AI 技术专栏。

2025-02-05 17:13:31 1178

原创 DeepSeek R1技术报告关键解析(6/10)：DeepSeek-R1 vs. OpenAI-o1-1217：性能对比分析

DeepSeek-R1 在数学推理任务上已经超越 OpenAI-o1-1217，但在代码推理和知识问答任务上仍然存在优化空间。作为开源模型，DeepSeek-R1 具有更高的透明度和可定制性，未来可以通过优化训练数据和强化学习策略，在更多任务上与 OpenAI 的高端模型竞争。开源总比闭源要好的吧~~我创建了一个《小而精的AI学习圈》知识星球，星球上有几十万字原创高质量的技术专栏分享，同时你也可以在星球向我提问。点击这里，我们星球见！点击这里查看所有 AI 技术专栏。

2025-02-05 17:11:15 2238

原创 DeepSeek R1技术报告关键解析(5/10)：知识蒸馏：如何让小模型也能具备强推理能力？

知识蒸馏（Knowledge Distillation）是一种让小模型从大模型学习的技术，类似于一位资深老师将自己的知识浓缩后，传授给学生。大模型通常计算量大、推理速度慢，而小模型虽然计算资源消耗更少，但推理能力往往不如大模型。通过知识蒸馏，小模型可以继承大模型的推理能力，同时保持较低的计算成本。在 DeepSeek-R1 训练过程中，研究人员通过知识蒸馏，让较小的模型也能具备较强的推理能力。

2025-02-05 17:08:01 1558 2

原创 DeepSeek R1技术报告关键解析(4/10)：拒绝采样（Rejection Sampling）让 AI 生成更靠谱的答案

AI 生成的答案并不总是正确的，有时候它会输出胡言乱语、逻辑错误或者无意义的推理链。如果不进行筛选，这些错误答案可能会影响模型的学习过程，甚至让 AI 形成错误的推理模式。为了解决这个问题，DeepSeek-R1 采用了一种称为拒绝采样（Rejection Sampling, RS）的方法，让 AI 在训练过程中优中选优，只保留最优质的推理答案，从而提升整体推理能力。

2025-02-05 17:01:30 1779

原创 DeepSeek R1技术报告关键解析(3/10)：冷启动数据让 AI 训练不再“摸黑”前进

DeepSeek-R1 的训练过程也类似，如果直接用强化学习（RL）进行训练，那么 AI 一开始就会像一个“什么都不会的孩子”，不断犯错，生成一堆毫无逻辑的答案，甚至可能陷入。我创建了一个《小而精的AI学习圈》知识星球，星球上有几十万字原创高质量的技术专栏分享，同时你也可以在星球向我提问。可以看出，DeepSeek-R1 通过冷启动数据显著提升了数学推理、代码推理等任务的准确率，并且。值得注意的是，DeepSeek-R1 的冷启动数据并不是一次性构建的，而是一个。的概念，即在 AI 训练的早期阶段，

2025-02-05 16:56:36 1606

原创 DeepSeek R1技术报告关键解析(2/10)：DeepSeek-R1-Zero 首个纯强化学习推理大模型

大多数 AI 训练方法都依赖人类提供的大量标注数据，但 DeepSeek-R1-Zero 选择了“这种自我优化能力，使得 DeepSeek-R1-Zero 在多个推理任务上取得了突破性的成绩。下面我将 DeepSeek-R1-Zero 的训练机制、性能表现以及存在的局限性进行了总结。但是它存在语言混乱、可读性差等问题，从而让研究人员开发了 DeepSeek-R1，这些问题的出现，让研究人员开发了 DeepSeek-R1，即在 RL 训练前。DeepSeek-R1-Zero 甚至出现了研究人员称之为“

2025-02-05 16:49:12 1441

原创 DeepSeek R1技术报告关键解析(1/10)：强化学习如何提升 AI 推理能力

换句话说，AI 只是一个“超级记忆机”，它能模仿人类的答案，但却不一定真正理解问题的本质。这就像是在训练一个孩子解数学题，监督学习相当于直接告诉他答案，而强化学习则是让他自己尝试解题，并根据最终的正确率进行调整。我创建了一个《小而精的AI学习圈》知识星球，星球上有几十万字原创高质量的技术专栏分享，同时你也可以在星球向我提问。这些结果证明，即使完全不依赖人工标注数据，仅靠强化学习，AI 也能学会复杂的推理能力。来增强 AI 的语言能力，同时结合强化学习，以达到更优的推理效果。过去的 AI 训练方式主要依赖。

2025-02-05 16:01:02 808

原创 DeepSeek-R1 和 DeepSeek-R1-Zero 的区别（通俗版）

DeepSeek-R1 和 DeepSeek-R1-Zero 都是，它们的核心目标是提升推理能力，特别是在数学、代码和复杂问题解决方面。但它们的训练方式和特点有很大不同。简单来说，，而。

2025-02-05 15:04:43 1321

原创 DeepSeek-R1 技术报告精华整理：通过强化学习提升大模型推理能力

近年来，大语言模型（LLM）快速发展，逐步缩小了与通用人工智能（AGI）之间的差距。后训练（Post-Training）已成为模型训练的重要环节，能提高推理任务的准确性，并对齐社会价值观，同时相比预训练消耗更少的计算资源。在 DeepSeek-R1 的研究过程中，我们发现，通过强化学习（RL）训练，大模型可以自主学习推理能力，而无需传统的监督微调（SFT）作为先决条件。这一发现为 LLM 推理能力的培养提供了新的方向，同时也表明了 RL 训练可以让模型自然学习链式思维（CoT）策略，解决复杂问题。

2025-02-05 14:55:59 735

原创 DeepSeek 的含金量还在上升

CUDA 编程之所以说是英伟达软件生态的护城河，原因是英伟达的编译器对 CUDA 语言做了很多优化和适配，使 CUDA 编写的程序可以非常容易且高效的运行在 GPU 芯片上。CUDA 也是一样的，它本身也是一种类 C 语言的“高级语言”，说它高级是相对于底层汇编而言的，而非真正的高级语言。但虽然如此， CUDA 的护城河仍然存在，因为并不是所有的公司都能做到手写汇编，这里的技术壁垒还是挺高的。要想真正打破 CUDA 护城河，需要重新定义和建立新的芯片架构和编程范式，这一点在目前的情况下还是挺难的。

2025-02-04 20:13:09 6677 4

空空如也

空空如也