LLM背后的基础模型_庞德公的博客-CSDN博客

LLM背后的基础模型

关注

文章平均质量分 82

虽然LLM领域的知识和技术日新月异，但是万地高楼平地起，在这个系列中会更加关注基础。通过细节了解模型的基本运作原理、预训练数据和推理过程，以及各个阶段的可用选项，这些基础知识的微小变化构成了其他所有内容。

关注数：文章数：11 文章阅读量：7133 文章收藏量：122

作者: 庞德公

多年来在人工智能、数据和技术领域兜兜转转，拥有较强的行业洞察力和技术前瞻力。精通数据流通与数据空间技术，高并发、分布式计算、隐私计算、区块链和自然语言处理技术。

展开

LLM基础模型系列：Prefix-Tuning

Prefix Tuning和Prompt Tuning最大的区别就是向每层的Transformer Block添加可训练的张量，而上一期的Prompt Tuning只是在输入的时候添加。

原创 2024-07-21 11:49:45 · 330 阅读 · 0 评论
LLM基础模型系列：Prompt-Tuning

大型预训练语言模型的规模不断扩大，在许多自然语言处理（NLP）基准测试中取得了最先进的结果。自GPT和BERT开发以来，标准做法一直是在下游任务上微调模型，这涉及调整网络中的每个权重（即模型调优）。

原创 2024-07-13 15:01:00 · 642 阅读 · 0 评论
LLM基础模型系列：Fine-Tuning总览

参数高效微调（PEFT）是微调一种比较好的技术，它不是端到端地训练完整的模型，而是固定预训练的模型权重，并且在微调期间仅调整少量特定于任务的参数。这种方法大大减少了内存开销，简化了存储/部署过程，并允许使用更易于访问的硬件进行微调LLMs。

原创 2024-07-11 21:27:00 · 685 阅读 · 0 评论
LLM的基础模型8：深入注意力机制

自注意力的主要功能是从输入序列本身生成上下文感知向量，而不是像基于RNN的编码器-解码器架构那样同时考虑输入和输出。在继续往下之前，还是需要帮助大家温习下之前的内容，也请各位能够认真的理解自注意力。

原创 2024-06-09 19:17:36 · 977 阅读 · 0 评论
LLM的基础模型7：注意力机制

模块的核心目标之一是掌握如何构建和训练基础的Transformer模型。在我们深入讨论模型之前，有必要先来探讨一下注意力机制，这是Transformer模型中至关重要的组成部分。Transformer块在处理完输入序列后，会生成一系列不同的向量，这些向量实际上是用于所谓的“交叉注意力”机制的。本文分为两大部分，前部分则是通俗易懂的解释，后面的部分则是采用数学的视野去阐述。

原创 2024-06-06 18:11:38 · 658 阅读 · 0 评论
LLM的基础模型6：Positional Encoding

在实现 NLP的解决方案时，RNN具有处理序列顺序的内置机制。然而，基于Transformer的大模型不使用递归或卷积，而是将每个数据视为独立于其他的数据。

原创 2024-06-07 21:26:22 · 585 阅读 · 0 评论
LLM的基础模型5：Embedding模型

经过编码之后，所有单词对应的编码向量能够反应单词之间的关系。理解和搞清楚Embedding的原理是必须的，它是一切的基石，某种意义也是深度神经网络的灵魂，其实它就是人类所谓的抽象思维。大模型模拟人类解决了将海量的信息进行高效的压缩编码。

原创 2024-06-05 21:53:04 · 1092 阅读 · 0 评论
LLM的基础模型4：初识Embeddings

Embeddings会分为两个章节，前部分主要还是放在常规方法总结，后者主要放在神经网络技术。其实这个英文单词不难理解，就是将对象用数字标识描述。其实一直纠结是否要讲述这个话题，因为可深可浅。

原创 2024-06-04 22:07:23 · 831 阅读 · 1 评论
LLM的基础模型3：Transformer变种

Google在编码器-解码器模型领域的流行并非偶然。在最初的Transformer论文《Attention is all you need》中，Google的研究人员提出了一种基于编码器-解码器架构的方法，原因是他们想在英语和德语之间进行机器翻译。目标是输入一系列英语标记，并在最后输出翻译后的德语序列。他们实现这一目标的方法是采用一系列编码器块，因此这些将是我们到目前为止所看到的常规Transformer块，他们将放入英语标记，对其进行转换并按照我们所看到的方式准备它们。

原创 2024-06-04 22:00:10 · 646 阅读 · 0 评论
LLM的基础模型2：Transformer的组成模块

Transformer是一种先进的语言模型，它在预测下一个单词或标记方面与传统的语言模型有所不同，但仍然遵循相同的基本原理。Transformer通过一系列复杂的步骤，将输入的标记序列转换为能够进行预测的丰富向量序列。

原创 2024-06-02 15:10:40 · 218 阅读 · 0 评论
LLM的基础模型1：前言

在这个系列的第一部分将进入深度学习和自然语言处理的奇妙世界，首先聚焦于Transformer架构——这是现代大型语言模型的核心技术。本部分内容不仅是整个系列的基石，也是理解后续章节的关键所在。

原创 2024-06-01 21:43:48 · 475 阅读 · 0 评论

LLM背后的基础模型

作者: 庞德公

LLM基础模型系列：Prefix-Tuning

LLM基础模型系列：Prompt-Tuning

LLM基础模型系列：Fine-Tuning总览

LLM的基础模型8：深入注意力机制

LLM的基础模型7：注意力机制

LLM的基础模型6：Positional Encoding

LLM的基础模型5：Embedding模型

LLM的基础模型4：初识Embeddings

LLM的基础模型3：Transformer变种

LLM的基础模型2：Transformer的组成模块

LLM的基础模型1：前言