hadiii-CSDN博客

原创【10大专题，2.8w字详解】：从张量开始到GPT的《动手学深度学习》要点笔记

🚀📘🎯 专注于查漏补缺、巩固基础，这份笔记将带你深入理解深度学习的核心概念。通过一系列精心整理的小专题，逐步构建起你的AI知识框架。🧠 从最基础的张量操作，到最新的GPT模型，每个专题都配备了直观的图示和详细的公式解析。📚 初版笔记以《动手学深度学习PyTorch版》书籍为基准，随后将根据视频讲解和最新论文研读内容进行实时更新。📈 所有专题都配备了精美的图表和公式推导。除非另有说明，所有图示均源自《动手学深度学习PyTorch版》官方PDF书籍。

2023-12-18 13:12:10 1466 1

原创注意力机制，Transformer相关详解

多头注意力融合了来自于多个注意力汇聚的不同知识，这些知识的不同来源于相同的查询、键和值的不同的子空间表示。也是由N个相同的层堆叠而成，但在每一层中包含了一个掩码多头注意力机制，以及一个encoder-decoder attention层（第二层），这一层的K,V来自于编码器，Q来自于解码器。给定查询（Query）、键（Key）和值（Value）三个输入，首先计算查询和所有键的点积，然后对结果进行缩放（除以根号下键的维度大小），接着通过softmax函数得到权重，最后用这个权重对值进行加权求和。

2023-12-12 11:19:23 2276

原创英特尔LLM技术挑战记录

然而，随着模型规模和输入长度的增加，传统的自注意力机制的计算复杂度和内存需求迅速增长，这限制了模型的扩展性和效率。总的来说，Flash Decoding 是一种创新的解码技术，旨在提高文本生成任务中的解码速度和效率，特别适用于需要快速响应或处理大量数据的应用场景。这些信息被用作生成回答的上下文，从而帮助模型生成更加丰富和准确的内容。减少冗余计算：在传统的注意力机制中，对于每一对输入元素都需要计算一个得分，而 Flash Attention 通过智能分组和预处理输入数据，减少了不必要的重复计算。

2024-05-28 21:10:09 544

原创 Word2Vec详解： CBOW & Skip-gram和负采样

如果是拿一个词语的上下文作为输入，来预测这个词语本身，则是 CBOW 模型。而如果是用一个词语作为输入，来预测它周围的上下文，那这个模型叫做 Skip-gram 模型。

2023-12-27 23:46:25 893

原创 Transfomer重要源码解析：缩放点击注意力，多头自注意力，前馈网络

缩放点积自注意力是一种自注意力机制，它通过查询（Query）、键（Key）和值（Value）的关系来计算注意力权重。该机制的核心在于先计算查询和所有键的点积，然后进行缩放处理，应用softmax函数得到最终的注意力权重，最后用这些权重对值进行加权求和。多头注意力通过将输入分割成多个头，让每个头在不同的子空间表示上计算注意力，然后将这些头的输出合并。这样做可以让模型在多个子空间中捕获丰富的信息。前馈网络（FFN）在自注意力层之后应用，用于进行非线性变换，增加模型的复杂度和表达能力。

2023-12-26 22:47:09 1618

原创 C++的操作运算符重载：以复数加法为例

在C++中，重载操作运算符是一种为类或结构体创建新版本的运算符的方法，以便它们可以用于自定义数据类型。运算符重载可以让其他程序员以直观的方式使用自定义类型，使其表现得像内置类型一样。重载一个运算符时，实际上是在定义一个函数，该函数指定了当该运算符用于自定义类型时应该执行的操作。运算符重载的函数可以是成员函数或非成员函数（通常是友元函数）。

2023-12-26 10:54:31 680

原创 C++中的左值，右值和移动语义详解

当一个对象被移动时，它的资源被转移到新对象中，原对象则处于一个有效但不确定的状态，通常被设置为一个不再持有资源的状态。右值引用是对临时对象（即右值）的引用，它允许开发者安全地获取临时对象的资源。同时可见，当同时存在拷贝赋值运算符（operator=）和移动赋值运算符（operator=）时，C++编译器会根据赋值操作的右侧操作数（即要赋值的对象）是左值还是右值来自动选择合适的赋值运算符。在第二次赋值操作中，如果实现了移动赋值运算符，临时对象的资源会被转移给v2，这通常比拷贝快得多，因为它避免了资源的复制。

2023-12-25 23:42:04 546

原创 C++的不同类型构造函数，析构函数详解以及代码示例

构造函数是用来初始化对象的成员变量的特殊函数。当创建类的新对象时，构造函数会被自动调用。构造函数的名称与类名相同，并且没有返回类型。一个类可以有多个构造函数，这被称为构造函数的重载。析构函数是当对象的生命周期结束时自动调用的特殊函数，用于执行清理操作，如释放资源、内存等。析构函数的名称由波浪号（~）后跟类名组成，并且没有参数和返回类型。在 main 函数中，创建了四个 SimpleClass 类型的对象，每个对象都使用不同的构造函数。

2023-12-24 10:07:55 2233

原创 C++的内存模型，动态内存和智能指针相关总结

C++编程中，动态内存分配是一个重要的概念，它允许程序在运行时分配内存。这是通过使用new和delete操作符来完成的，它们分别用于分配和释放内存。然而，手动管理动态分配的内存可能会导致错误，如内存泄漏（忘记释放内存）和悬垂指针（指向已释放内存的指针）。为了解决这些问题，C++引入了智能指针的概念。智能指针是模板类，它们提供了类似于指针的接口，但是增加了自动内存管理的功能。使用智能指针，当智能指针超出作用域或被删除时，它们所指向的内存会自动被释放。C++标准库提供了几种不同类型的智能指针，每种都有其特定

2023-12-23 10:37:23 587

原创 C++关联容器概念，相关操作和代码示例

std::map是一个基于红黑树的有序关联容器，它存储的是键值对。每个键都是唯一的，并且容器会根据键来排序元素。在std::map中，查找、插入和删除操作的时间复杂度通常是 O(log n)，其中 n 是容器中元素的数量。由于它是基于红黑树实现的，所以元素始终是有序的。

2023-12-22 10:57:05 1051

原创 C++11：Lambda表达式详解和示例代码

Lambda 表达式是 C++11 引入的一种方便的编写匿名函数对象的方法。Lambda 表达式允许你在需要一个函数对象的地方编写一个内联的、未命名的函数。parameters。

2023-12-21 08:43:34 503 1

原创 C++的顺序容器类型和相关操作总结

C++ 标准库提供了一组顺序容器，用于存储和管理元素的集合。

2023-12-20 10:57:07 1072 1

原创 C++中的访问控制：public、private、protected、friend

如果我们只有一个类，那么在类内部声明友元函数就足够了，不需要在类外部进行额外的声明，因为没有涉及到其他不完整的类型。当只有一个类时，编译器可以轻松理解友元声明，因为它没有引用其他未定义的类。还未被定义，所以是一个不完整的类型。要使这种访问成为可能，我们需要在类定义之前声明。在实际开发中，更妥善的方法是，严格按照类声明的。，以及一个能够访问这两个类私有成员的友元函数。的友元函数，它可以访问这两个类的私有成员。函数，编译器在处理类定义时已经知道了。关键字的示例代码，其中包含两个类。是用于访问控制的修饰符，而。

2023-12-19 10:55:15 391 1

原创 C++的static用法总结和代码示例

修饰普通变量：static关键字可用于修改普通变量的存储区域和生命周期，使其存储在静态区，在程序运行前就分配了空间。如果有初始值，将使用初始值进行初始化，否则系统会用默认值初始化它。修饰普通函数：static关键字可用于限制函数的作用范围，使其仅在定义该函数的文件内可用。这有助于防止在多人协作项目中与其他命名空间中的函数重名。

2023-12-17 12:49:58 679 1

原创二叉搜索树的简单C++类实现

二叉搜索树（BST）是一种重要的数据结构，它对于理解树的操作和算法至关重要。本文将通过一个C++示例来展示如何实现一个BST，并在插入和删除节点时提供清晰的输出，以帮助可视化这些操作的过程。

2023-12-16 16:10:03 928 1

原创 C++中的try语句块和异常处理总结和代码示例

异常处理是编程中用于处理程序运行时错误的一种机制。

2023-12-15 21:49:49 1278

原创 C++中的类型转换概念详解和示例代码

向下转型则需要谨慎，如果一个父类指针确实指向了一个子类对象，向下转型是安全的。但如果父类指针仅仅指向一个父类对象，尝试将其转换为子类指针并访问子类特定的成员会导致未定义的行为。也就是说，它用于将基类的指针或引用转换为派生类的指针或引用，但要求基类至少有一个虚函数。如果转换失败（例如，尝试将基类对象的指针转换为并非实际派生类的派生类指针），父类指针可以指向父类对象或子类对象，子类指针不能指向父类对象。例如，可以将一个指针转换为另一个完全不同类型的指针，或者将指针转换为整型。到其它类型指针的转换。

2023-12-15 11:40:11 834

原创 word2vec，BERT，GPT相关概念

BERT 使用的是 Transformer 的编码器（Encoder）结构。它是设计为深度双向模型，通过同时考虑左右两侧的上下文来预训练语言表示。BERT 采用了掩码语言模型（MLM）和下一句预测（NSP）两种预训练任务。MLM 随机掩盖输入序列中的单词并预测这些单词，而 NSP 预测两个句子是否顺序相邻。GPT 使用的是 Transformer 的解码器（Decoder）结构，并且不使用 encoder-decoder 注意力。

2023-12-13 17:15:10 1450

原创 GRU，LSTM，encoder-decoder架构，seq2seq的相关概念

GRU模型有专门的机制来确定应该何时更新隐状态，以及应该何时重置隐状态。这些机制是可学习的。计算门控循环单元模型中的隐状态。

2023-12-11 11:36:40 1348 1

原创序列模型，语言模型，RNN的相关概念

循环神经网络（RNN）通过引入状态变量来存储过去的信息和当前的输入，从而确定当前的输出。这种结构使得RNN非常适合处理序列信息，因为它可以捕捉到序列中的时间依赖性。这与卷积神经网络（CNN）的工作方式形成了对比，CNN主要用于处理空间信息，如图像等。

2023-12-10 19:33:46 1097 2

原创残差连接相关概念

如果一个网络结构F’包含了原来的网络结构F（即F ⊆ F’），那么F’至少可以达到F的性能，因为F’可以通过设置一部分参数，使得自身退化为F，即将新添加的层训练成恒等映射f(x) = x。在这种情况下，选择F’是安全的，因为它至少不会比F差。然而，如果F’不包含F，那么F’可能会比F更差。对于所有f属于F，存在一些参数集（例如权重和偏置），这些参数可以通过在合适的数据集上进行训练而获得。相反，我们将尝试找到⼀个函数f**，这是我们在F中的最佳选择。

2023-12-09 15:13:37 372

原创卷积计算，CNN，CNN中的注意力相关概念

是指在前向传播过程中可能影响该神经元计算的所有输入元素。感受野可以通过网络深度的增加而相应地扩大。在卷积神经网络中，神经元的。

2023-12-09 15:08:45 376

原创前（反）向传播，梯度消失和爆炸，batch normalization

在前向传播过程中，每一层神经元都会接收到前一层神经元的输出作为输入，并通过激活函数进行处理，然后将结果传递给下一层神经元。反向传播是一种在神经网络中计算参数梯度的方法，它是深度学习中的基础算法。该过程从前向传播开始，计算并存储每一层的输出，然后计算损失函数，接着按照相反的顺序计算每一层的梯度，最后使用这些梯度更新网络参数。在单隐藏层简单网络的参数是W1和W2。则反向传播的目的是计算梯度∂W1∂J和∂W2∂J。

2023-12-09 11:00:09 1064

原创 K折交叉验证，欠（过）拟合，权重衰退，暂退法的基本概念

K折交叉验证是一种评估模型性能的常用方法，特别是在数据量较少的情况下。这种方法将数据集分为K个不重叠的子集，每个子集大致具有相同的大小。然后，模型会进行K次训练和验证。在每次迭代中，模型会在K-1个子集（即训练集）上进行训练，并在剩下的一个子集（即验证集）上进行验证。这样，每个子集都有一次机会作为验证集，其余次数作为训练集。K折交叉验证的主要优点是，它允许模型在多个不同的训练和验证集上进行训练和验证，这有助于提供对模型性能更稳健的估计。

2023-12-08 21:14:41 1003

原创线性回归，softmax回归，多层感知机，激活函数的基本概念

softmax函数将一个实数向量转换为概率分布。对于每个元素，它计算该元素的指数与所有元素的指数之和的比值。这样可以确保输出向量的所有元素都是非负的，并且总和为1，因此可以被视为概率分布。

2023-12-08 21:06:48 1093

原创张量，梯度，链式法则的基本概念

张量是一种多维数组，支持在GPU上进行计算，是计算图中的节点，并且支持自动微分。

2023-12-08 21:03:42 1054

原创 ChatGLM3-6B模型的部署与微调

本文记录在AutoDL平台上部署和微调ChatGLM3-6B模型的过程。

2023-12-07 22:02:34 2274 1

qq_46348508的博客