m0_48923489-CSDN博客

原创深度学习中不同的优化器汇总（SGD、动量、Adagrad、RMSProp、Adam）（理论、公式、代码）

本文针深度学习中不同的优化器进行了汇总，包括公式实现、代码示例、演变过程和优缺点做了较为详细的分析。

2024-03-20 09:38:55 3655 1

原创 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

为了消除微调方法，我们采用基于特征的方法，从一个或多个层中提取激活，而无需微调BERT的任何参数。在输入阶段，来自预训练的句子A和B分别对应于（1）改写中的句子对，（2）蕴含中的前提-假设对，（3）问答中的问题-段落对，以及（4）文本分类或序列标注中的退化文本-空对。**BERT（Bidirectional Encoder Representations from Transformers）是第一个基于微调的表示模型，它在一系列句子级和token级任务上实现了最先进的性能，超越了许多专门设计的任务架构。

2024-04-13 22:35:38 1533

原创困惑度（Perplexity）的计算方法和意义

困惑度（Perplexity）是一种用于评估语言模型性能的指标，特别是在自然语言处理领域中。它衡量的是模型对一组样本数据的预测能力，通常用于评估语言模型的预测准确度和泛化能力。

2024-04-13 09:25:53 6317

原创 IDF(逆文档频率)

在信息检索领域，有些词项可能在大部分文档中都出现，如“is”、“the”等，这些词称为停用词，它们对于区分文档的重要性作用很小。在信息检索中，逆文档频率（Inverse Document Frequency，IDF）是一种用于衡量一个词项在整个文档集合中的重要性的指标。它的提出契机源于对词项在文档中的普遍性与独特性之间的平衡。综上所述，逆文档频率（IDF）是信息检索中用来衡量一个词项在整个文档集合中的重要性的指标，通过考虑词项的普遍性和独特性来帮助区分文档的相关性。IDF的计算公式中的。

2024-04-12 22:54:52 2468

原创 BM25和语言模型的改进研究

近期关于搜索引擎排名函数的研究报告指出，BM25和带Dirichlet平滑的语言模型有所改进。本研究通过在INEX 2009维基百科语料库上训练，然后在INEX 2010和9个TREC语料库上测试，比较了9种最新的排名函数（BM25、BM25+、BM25T、BM25-adpt、BM25L、TFbδop×IDTFbδop×ID、LM-DS、LM-PYP和LM-PYP-TFIDF）。

2024-04-12 10:05:15 955

原创 Prefix-Tuning: Optimizing Continuous Prompts for Generation Xiang Lisa Li Percy Liang Stanford Unive

微调是利用预训练大型语言模型执行下游任务的标准方法。然而, 它修改了所有语言模型参数, 因此需要为每个任务存储完整的副本。在这篇论文中, 我们提出了前缀微调 (prefix-tuning), 这是一种针对自然语言生成任务的轻量级替代方法, 它保持语言模型参数冻结, 但优化一个小型的(连续的)任务特定向量 (称为前缀)。前缀微调借鉴了提示的方法, 使得后续的令牌可以像 “虚拟令牌” 一样关注这个前缀。我们将在GPT-2上应用前缀微调进行表格到文本生成, 并在BART上用于摘要。我们发现,仅学习参数的0.1。

2024-04-08 16:12:39 1241

原创 PISSA: PRINCIPAL SINGULAR VALUES AND SINGULAR VECTORS ADAPTATION OF LARGE LANGUAGE MODELS

随着大型语言模型 (LLMs) 参数的增加, 整个模型的微调计算成本变得不可承受。为解决这一挑战, 我们提出了一种参数效率微调 (PEFT) 方法, Principal Singular values and Singular vectors Adaptation (PiSSA), 它在优化显著减少的参数空间的同时, 达到或超过全参数微调的性能。PiSSA的灵感来源于Intrinsic SAID, 它表明预训练的过度参数化模型处于低内在维度的空间中。因此,PiSSA通过两个可训练矩阵A∈Rm×r。

2024-04-07 22:54:25 1043

原创 Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

改文章为了解决相似文本对的快速搜索问题，提出了一种基于孪生网络的有监督训练分类训练，目的是帮助模型获得有效的句子特征。实验结果表明了该方法的有效性，改论文数据比较老的论文，现在普遍采用的方式都是基于对比学习的方式。消融实验仅仅给出了实验结果，并未对结果进行分析。算是科普了几种方法吧。

2024-04-07 22:27:15 1448

原创 ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

参数效率的提升展示了ALBERT设计选择的最重要优势，如表2所示：使用大约70%的BERT-large参数，ALBERT-xxlarge在SQuAD v1.1（+1.9%）、SQuAD v2.0（+3.1%）、 MNLI（+1.4%）、SST-2（+2.2%）和RACE（+8.4%）等代表性下游任务的开发集得分上实现了显著提升。还有其他层间参数共享的方法，例如，可以将 L 层分为 N 个大小为 M 的组，每个大小为 M 的组共享参数。

2024-04-06 23:42:49 1263 2

原创 torch中根据矩阵对应元素抽取矩阵中的值

对应位置值为1的元素，最终返回一个包含所有提取元素的张量。维度相同的张量矩阵，它的值为0或1。是一个3x3的张量矩阵，

2024-03-23 23:21:08 445 1

原创 PyTorch中用torch.block_diag()将多个矩阵沿对角线拼接成一个大矩阵的函数

函数时，传入的矩阵应该具有相同的数据类型和设备类型。如果有一个矩阵的类型不一致，那么会抛出类型不匹配的异常。如果要将一个CPU上的矩阵和一个GPU上的矩阵拼接在一起，需要先使用。是PyTorch中用于将多个矩阵沿对角线拼接成一个大矩阵的函数。这个函数可以用于构建卷积神经网络中的卷积核矩阵，或者构建变分自编码器等需要对多个线性变换进行堆叠的模型。函数将这三个矩阵沿对角线拼接成一个5×4的矩阵，其中未被填充的部分用0填充。是要拼接的矩阵，可以是一个或多个Tensor对象。，分别为2×2、1×2、2×1的矩阵。

2024-03-23 23:19:17 883 1

原创 tmux 操作命令介绍

在当前窗口上下方向划分一个新窗格。在当前窗口左右方向划分一个新窗格。

2024-03-22 20:47:42 361 1

原创 C语言运算符优先级

C语言中的运算符优先级决定了表达式中运算的顺序。当一个表达式中包含多个运算符时，运算符的优先级确定了哪些运算符先执行，哪些后执行。可以改变这些规则，明确指定运算的顺序。理解这些优先级对于编写正确和易于理解的代码至关重要。

2024-03-22 20:45:08 238 1

原创 linux中vim的使用方法

是一个强大的文本编辑器，可以用于编辑各种类型的文件。它有一个学习曲线，但一旦掌握了基本操作，它会变得非常高效。：在编辑模式下，您可以像在普通文本编辑器中一样输入、删除和修改文本。时可能会感到有些困惑，但随着实践和熟悉，您会逐渐变得更加熟练。：在命令模式下，可以使用方向键或。，可以将当前文件内容保存为新文件。此时，您可以开始编辑文件内容。，然后输入要查找的内容并按下。，输入要查找的内容，按下。：在编辑模式下，按下。：在命令模式下，输入。：在命令模式下，输入。：在命令模式下，输入。

2024-03-22 20:40:59 627 1

原创 Word2Vec（理论、公式和代码）

Word2Vec是一种广泛使用的文本表示技术，可以将词汇表中的每个词转换为一个高维空间中的向量。这些词向量能够捕捉词之间的语义关系，如同义词或语境上相似的词会在向量空间中彼此接近。

2024-03-22 20:31:50 1166 1

原创 nn.Embedding和nn.Linear之间的区别，代码实例和输出结果，两者如何转换可以达到相同的输出结果。

从输出结果中，我们可以看到，通过禁用偏置项并将输入转换为 one-hot 向量，我们可以使用 `nn.Linear` 模拟 `nn.Embedding` 的行为。同时，我们需要将 `nn.Embedding` 的权重赋值给 `nn.Linear` 的权重，这样它们才能产生相同的输出。`nn.Embedding` 和 `nn.Linear` 都是 PyTorch 中的神经网络模块，用于实现不同的功能。可以看到输出的结果与nn.Embedding权重的第1，3，5行的权重完全相同，

2024-03-20 10:40:37 1089 1

原创 Adam优化器（理论、公式、代码）

Adam（Adaptive Moment Estimation）是一种广泛使用的深度学习优化算法，由 Diederik P. Kingma 和 Jimmy Ba 在 2014 年提出。它结合了动量法（Momentum）和 RMSProp 的思想，旨在通过计算梯度的一阶矩估计和二阶矩估计来调整每个参数的学习率，从而实现更高效的网络训练。

2024-03-20 09:21:02 51936 6

原创 RMSProp优化算法（理论、公式、代码）

RMSProp（Root Mean Square Propagation）是一种自适应学习率的优化算法，主要用于深度学习中的参数更新。旨在解决 Adagrad 算法在深度学习训练过程中学习率逐渐减小直至无法进一步学习的问题。

2024-03-20 09:16:17 8515 2

原创 AdaGrad优化器（理论、公式、代码实现）

AdaGrad（Adaptive Gradient Algorithm）是一种自适应学习率的梯度下降算法，于2011年由Duchi等人提出。这个算法主要是为了解决标准的梯度下降算法中学习率一成不变的问题。在标准的梯度下降算法中，如果学习率过大，可能会导致算法在最小值附近震荡而不收敛；如果学习率过小，又会导致收敛速度过慢。AdaGrad算法通过自适应调整每个参数的学习率，尝试解决这个问题。

2024-03-19 20:32:47 3588 1

原创优化器（梯度下降 + Momentum）

动量梯度下降（Momentum Gradient Descent）是一种优化算法，用于训练机器学习模型，特别是神经网络模型。它是在标准梯度下降算法的基础上引入了动量概念，以解决梯度下降中的一些问题，例如局部最小值、鞍点等。

2024-03-19 20:14:08 833

原创使用transformers.Trainer如何关闭wandb

时，其便利性与配置挑战性并存，形成了一种复杂的关系。引入了wandb作为内置功能的决定，可能源自某位营销天才的奇思妙想。虽然wandb在某些情况下确实提供了极大的便利，但在很多情况下，它的存在却显得多余。本篇文章旨在探讨如何应对这一需求。但这种方法可能会触发一条警告信息，告诉你。标志来控制日志记录的集成方式。环境变量即将弃用，并建议使用。

2024-03-19 09:39:57 1687

原创 tokenizer分词器中的BPE分词方法的原理、样例、代码示例

想象一下你正在玩一种叫做“文字乐高”的游戏。在这个游戏中，你有很多小块，每个小块上写着一个字母或汉字。你的任务是用这些小块来构建单词或句子。开始时，你只能用单个字母或汉字的小块。但是游戏规则允许你找出那些经常一起出现的字母或汉字对，然后把它们合并成一个新的、更大的小块。随着游戏的进行，你可以创建越来越多的这种复合小块，从而更快、更高效地构建单词或句子。BPE（Byte Pair Encoding）分词方式就像这个游戏。

2024-03-19 09:26:16 2444

原创随机梯度下降SGD（理论、公式、代码）

随机梯度下降（SGD）是一种用于优化机器学习模型的非常流行的算法。它特别适用于大规模数据集，因为它在每次迭代中仅使用一小部分数据。这使得SGD比批量梯度下降（使用整个数据集的梯度下降）更快、更高效。接下来，我将从理论、公式和代码示例这三个方面来介绍SGD优化器。

2024-03-19 08:47:05 12902

原创繁体字转简体

确保你已经下载了OpenCC的简体字典文件（t2s.json），并将其放在正确的位置，以便代码能够正确运行。你可以从OpenCC的官方网站或GitHub仓库中获取这些字典文件。繁体字转简体字可以使用Python中的第三方库OpenCC来实现。首先，你需要安装OpenCC库。，该函数接受一个繁体字字符串作为输入，并返回相应的简体字字符串。在测试代码中，我们将一个繁体字句子转换为简体字，并打印出结果。上面的代码中，我们首先导入了opencc模块，然后定义了一个函数。

2023-10-10 08:53:26 668 1

原创 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints（理论+代码实现）

分组查询注意力的模型的能力与多头注意力的的模型能力相近而且推理速度和多查询注意力相近，等同于同时融合了两者的优点，但是注意，分组查询注意力并没有减少模型的计算量，只是优化的显存的换入换出，在解码过程中由于key和value的数量级远远小于query的数量级，所以在自回归解码时可以将已经计算出来的key和value一直高速缓存中，减少数据换入换出的次数，以此来提升速度。

2023-10-05 13:51:32 929 1

原创 GLM: General Language Model Pretraining with Autoregressive Blank Infilling

已经有各种类型的预训练架构，包括自编码模型（例如BERT），自回归模型（例如GPT）和编码器-解码器模型（例如T5）。然而，没有一个预训练框架对三个主要类别的所有任务（自然语言理解（NLU），无条件生成和有条件生成）都表现最佳。我们提出了一种基于自回归空白填充的通用语言模型（GLM）来应对这一挑战。GLM通过添加2D位置编码并允许任意顺序预测跨度来改进空白填充预训练，从而在NLU任务上比BERT和T5获得了性能提升。同时，通过变化空白数量和长度，可以针对不同类型的任务对GLM进行预训练。

2023-05-01 00:01:35 1862 2

m0_48923489的博客