- 博客(9)
- 收藏
- 关注
原创 从零开始讲LLM原理-3.3Decoder-Only PLM
事实上,就是目前大火的 LLM 的基础架构,目前所有的 LLM 基本都是 Decoder-Only 模型(RWKV、Mamba 等非 Transformer 架构除外)。而引发 LLM 热潮的 ChatGPT,正是 Decoder-Only 系列的代表模型 GPT 系列模型的大成之作。而目前作为开源 LLM 基本架构的 LLaMA 模型,也正是在 GPT 的模型架构基础上优化发展而来。
2025-07-28 00:06:18
1044
原创 从零开始讲llm原理-3.2Encoder-Decoder PLM
(Text-To-Text Transfer Transformer)将所有 NLP 任务统一表示为文本到文本的转换问题, 基于 Transformer 架构,包含编码器和解码器两个部分,使用自注意力机制和多头注意力捕捉全局依赖关系,利用相对位置编码处理长序列中的位置信息,并在每层中包含前馈神经网络进一步处理特征。T5 的大一统思想将不同的 NLP 任务如文本分类、问答、翻译等统一表示为输入文本到输出文本的转换,这种方法简化了模型设计、参数共享和训练过程,提高了模型的泛化能力和效率。
2025-07-26 00:00:05
749
原创 从零开始讲LLM原理-3.1Encoder-only PLM
BERT,全名为 Bidirectional Encoder Representations from Transformers,是由 Google 团队在 2018年发布的预训练语言模型。
2025-07-24 00:02:13
687
原创 从零开始讲LLM原理-2.3搭建一个Transformer
Attention 机制和 Transformer 的核心是Encoder、Decoder 结构,接下来,我们就可以基于上一章实现的组件,搭建起一个完整的 Transformer 模型。
2025-07-22 01:22:19
453
原创 从零开始讲LLM(大语言模型)原理-2.2Encoder-Decoder
在《Attention is All You Need》中,作者摒弃传统的 RNN、CNN 架构,仅依靠注意力机制构建出 Transformer 模型,引发了 NLP 领域的重大变革。Transformer 的核心组件为编码器(Encoder)和解码器(Decoder),二者均运用了注意力机制。后续基于 Transformer 发展的预训练语言模型,多通过对 Encoder - Decoder 部分的改进来构建新架构,像仅采用编码器的 BERT、仅使用解码器的 GPT 等。
2025-07-20 00:09:38
981
原创 从零开始讲LLM(大语言模型)原理-2.1注意力机制
想象在阅读一段文字时,不会平均对待每一个词,而是会在那些的关键词上,忽略不重要的部分。例如,在句子“坐在上”中,“猫”和“垫子”通常比“在”和“上”更重要。注意力机制的核心思想就是让模型学会这种“聚焦”的能力。它是现代人工智能(尤其是深度学习)领域的一个重要内容,特别是在自然语言处理(NLP)、(CV)等领域取得了巨大成功。注意力机制如同为(下文会讲~)装上“可调焦镜头”,使其从“均匀处理所有输入”进化到“智能聚焦关键信息”。两者结合催生了当今强大的AI模型(如ChatGPT)。
2025-07-19 00:52:48
390
原创 从零开始讲LLM(大语言模型)原理-1.NLP基础概念
文本摘要(Text Summarization):目的是生成一段简洁准确的摘要,来概括原文的主要内容。根据生成方式的不同,文本摘要可以分为两大类:抽取式摘要(Extractive Summarization)和生成式摘要(Abstractive Summarization)。2021年5月22日,国家航天局宣布,我国自主研发的火星探测器“天问一号”成功在火星表面着陆。此次任务的成功,标志着我国在深空探测领域迈出了重要一步。
2025-07-17 00:56:58
685
原创 从零开始讲LLM(大语言模型)原理-0.认识篇
LLM 其实是 NLP 领域经典研究方法预训练语言模型(Pretrain Langguage Model,PLM)的⼀种衍生成果。NLP 领域聚焦于人类书写的自然语言文本的处理、理解和生成。。以 GPT、BERT 为代表的 PLM 是上⼀阶段 NLP 领域的 核心研究成果,以注意力机制为模型架构,通过预训练-微调的阶段思想通过在海量无监督文本上进行自监督预训练,实现了强大的自然语言理解能⼒。
2025-07-15 00:51:18
349
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅