![](https://img-blog.csdnimg.cn/direct/142f13b66e5642c9ae492d6beb60f2ea.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
LLM背后的基础模型
文章平均质量分 82
虽然LLM领域的知识和技术日新月异,但是万地高楼平地起,在这个系列中会更加关注基础。通过细节了解模型的基本运作原理、预训练数据和推理过程,以及各个阶段的可用选项,这些基础知识的微小变化构成了其他所有内容。
庞德公
多年来在人工智能、数据和技术领域兜兜转转,拥有较强的行业洞察力和技术前瞻力。精通数据流通与数据空间技术,高并发、分布式计算、隐私计算、区块链和自然语言处理技术。
展开
-
LLM基础模型系列:Prefix-Tuning
Prefix Tuning和Prompt Tuning最大的区别就是向每层的Transformer Block添加可训练的张量,而上一期的Prompt Tuning只是在输入的时候添加。原创 2024-07-21 11:49:45 · 330 阅读 · 0 评论 -
LLM基础模型系列:Prompt-Tuning
大型预训练语言模型的规模不断扩大,在许多自然语言处理 (NLP) 基准测试中取得了最先进的结果。自GPT和BERT开发以来,标准做法一直是在下游任务上微调模型,这涉及调整网络中的每个权重(即模型调优)。原创 2024-07-13 15:01:00 · 642 阅读 · 0 评论 -
LLM基础模型系列:Fine-Tuning总览
参数高效微调(PEFT)是微调一种比较好的技术,它不是端到端地训练完整的模型,而是固定预训练的模型权重,并且在微调期间仅调整少量特定于任务的参数。这种方法大大减少了内存开销,简化了存储/部署过程,并允许使用更易于访问的硬件进行微调LLMs。原创 2024-07-11 21:27:00 · 685 阅读 · 0 评论 -
LLM的基础模型8:深入注意力机制
自注意力的主要功能是从输入序列本身生成上下文感知向量,而不是像基于RNN的编码器-解码器架构那样同时考虑输入和输出。在继续往下之前,还是需要帮助大家温习下之前的内容,也请各位能够认真的理解自注意力。原创 2024-06-09 19:17:36 · 977 阅读 · 0 评论 -
LLM的基础模型7:注意力机制
模块的核心目标之一是掌握如何构建和训练基础的Transformer模型。在我们深入讨论模型之前,有必要先来探讨一下注意力机制,这是Transformer模型中至关重要的组成部分。Transformer块在处理完输入序列后,会生成一系列不同的向量,这些向量实际上是用于所谓的“交叉注意力”机制的。本文分为两大部分,前部分则是通俗易懂的解释,后面的部分则是采用数学的视野去阐述。原创 2024-06-06 18:11:38 · 658 阅读 · 0 评论 -
LLM的基础模型6:Positional Encoding
在实现 NLP的解决方案时,RNN具有处理序列顺序的内置机制。然而,基于Transformer的大模型不使用递归或卷积,而是将每个数据视为独立于其他的数据。原创 2024-06-07 21:26:22 · 585 阅读 · 0 评论 -
LLM的基础模型5:Embedding模型
经过编码之后,所有单词对应的编码向量能够反应单词之间的关系。理解和搞清楚Embedding的原理是必须的,它是一切的基石,某种意义也是深度神经网络的灵魂,其实它就是人类所谓的抽象思维。大模型模拟人类解决了将海量的信息进行高效的压缩编码。原创 2024-06-05 21:53:04 · 1092 阅读 · 0 评论 -
LLM的基础模型4:初识Embeddings
Embeddings会分为两个章节,前部分主要还是放在常规方法总结,后者主要放在神经网络技术。其实这个英文单词不难理解,就是将对象用数字标识描述。其实一直纠结是否要讲述这个话题,因为可深可浅。原创 2024-06-04 22:07:23 · 831 阅读 · 1 评论 -
LLM的基础模型3:Transformer变种
Google在编码器-解码器模型领域的流行并非偶然。在最初的Transformer论文《Attention is all you need》中,Google的研究人员提出了一种基于编码器-解码器架构的方法,原因是他们想在英语和德语之间进行机器翻译。目标是输入一系列英语标记,并在最后输出翻译后的德语序列。他们实现这一目标的方法是采用一系列编码器块,因此这些将是我们到目前为止所看到的常规Transformer块,他们将放入英语标记,对其进行转换并按照我们所看到的方式准备它们。原创 2024-06-04 22:00:10 · 646 阅读 · 0 评论 -
LLM的基础模型2:Transformer的组成模块
Transformer是一种先进的语言模型,它在预测下一个单词或标记方面与传统的语言模型有所不同,但仍然遵循相同的基本原理。Transformer通过一系列复杂的步骤,将输入的标记序列转换为能够进行预测的丰富向量序列。原创 2024-06-02 15:10:40 · 218 阅读 · 0 评论 -
LLM的基础模型1:前言
在这个系列的第一部分将进入深度学习和自然语言处理的奇妙世界,首先聚焦于Transformer架构——这是现代大型语言模型的核心技术。本部分内容不仅是整个系列的基石,也是理解后续章节的关键所在。原创 2024-06-01 21:43:48 · 475 阅读 · 0 评论