2401_88948076-CSDN博客

原创第二章：Transformer 模型二

因此，我们通常还会采用迁移学习 (transfer learning) 方法，使用特定任务的标注语料，以有监督学习的方式对预训练模型参数进行微调 (fine-tune)，以取得更好的性能。回忆一下，“因果语言建模”就是上一章中说的统计语言模型，只使用前面的词来预测当前词，由 NNLM 首次运用；这些语言模型虽然可以对训练过的语言产生统计意义上的理解，例如可以根据上下文预测被遮盖掉的词语，但是如果直接拿来完成特定任务，效果往往并不好。自监督学习是一种训练目标可以根据模型的输入自动计算的训练方法。

2025-02-14 08:58:07 180

原创 Transformer 模型一

正如上一章所说，自从 BERT 和 GPT 模型取得重大成功之后， Transformer 结构已经替代了循环神经网络 (RNN) 和卷积神经网络 (CNN)，成为了当前 NLP 模型的标配。本章将简单介绍 Transformer 模型的定义及发展，希望它可以成为你探究 Transformer 的地图。

2025-02-14 08:57:27 698

原创大语言模型

在保持模型结构以及预训练任务基本不变的情况下，仅仅通过扩大模型规模就可以显著增强模型能力，尤其当规模达到一定程度时，模型甚至展现出了能够解决未见过复杂问题的涌现（Emergent Abilities）能力。例如 175B 规模的 GPT-3 模型只需要在输入中给出几个示例，就能通过上下文学习（In-context Learning）完成各种小样本（Few-Shot）任务，而这是 1.5B 规模的 GPT-2 模型无法做到的。下面本章将按照模型规模介绍一些可供开发者使用的大语言模型。

2025-02-14 08:52:17 716

原创 BERT 模型

BERT 模型的出现并非一蹴而就，它不仅借鉴了 ELMo、GPT 等模型的结构与框架，而且延续了 Word2Vec 模型提出的 CBOW 训练方式的思想，可以看作是这一阶段语言模型发展的集大成者。具体来说，UNILM 模型通过给 Transformer 中的 Self-Attention 机制添加不同的 MASK 矩阵，在不改变 BERT 模型结构的基础上同时实现了双向、单向和序列到序列（Sequence-to-Sequence，Seq2Seq）语言模型，是一种对 BERT 模型进行扩展的优雅方案。

2025-02-14 08:50:55 337

原创 ELMo 模型

然后在实际使用时，对于输入文本中的每一个词语，都提取模型各层中对应的词向量拼接起来作为新的词向量。ELMo 模型采用双层双向 LSTM 作为编码器，如图 1-10 所示，从两个方向编码词语的上下文信息，相当于将编码层直接封装到了语言模型中。不久之后，将 ELMo 模型中的 LSTM 更换为 Transformer 的 GPT 模型就出现了。对于输入文本中的词语，可以从第一层 LSTM 中得到包含句法信息的词向量，从第二层 LSTM 中得到包含语义信息的词向量，最终通过加权求和得到每一个词语最终的词向量。

2025-02-14 08:49:58 245

原创 Word2Vec 模型

一词多义是语言灵活性和高效性的体现，但是 Word2Vec 模型却无法处理多义词，一个词语无论表达何种语义，Word2Vec 模型都只能提供相同的词向量，即将多义词编码到了完全相同的参数空间。真正将神经网络语言模型发扬光大的是 2013 年 Google 公司提出的 Word2Vec 模型。其中 CBOW 使用周围的词语 w(t−2),w(t−1),w(t+1),w(t+2) 来预测当前词 w(t)，而 Skip-gram 则正好相反，它使用当前词 w(t) 来预测它的周围词语。

2025-02-14 08:48:16 216

原创 NNLM模型

具体来说，NNLM 模型首先从词表 C 中查询得到前面 N−1 个词语对应的词向量 C(wt−n+1),…,C(wt−2),C(wt−1)，然后将这些词向量拼接后输入到带有激活函数的隐藏层中，通过 Softmax 函数预测当前词语的概率。直到 2013 年，随着越来越多的研究者使用深度学习模型来处理自然语言，NNLM 模型才被重新发掘，并成为使用神经网络建模语言的经典范例。NNLM 模型的思路与统计语言模型保持一致，它通过输入词语前面的 N−1 个词语来预测当前词。模型结构如图 1-6 所示。

2025-02-14 08:46:24 603

原创统计语言模型发展史

要让计算机处理自然语言，首先需要为自然语言建立数学模型，这种模型被称为“统计语言模型”，其核心思想是判断一个文字序列是否构成人类能理解并且有意义的句子。这个问题曾经困扰了学术界很多年。

2025-02-14 08:45:42 266

原创自然语言处理简单发展史二

当时的代表性方法是“通信系统加隐马尔可夫模型”，其输入和输出都是一维且保持原有次序的符号序列，可以处理语音识别、词性分析等任务，但是这种方法在面对输出为二维树形结构的句法分析以及符号次序有很大变化的机器翻译等任务时就束手无策了。20 世纪 80 年代以来，随着硬件计算能力的提高以及海量互联网数据的出现，越来越多的统计机器学习方法被应用到自然语言处理领域，例如一些研究者引入基于有向图的统计模型来处理复杂的句法分析任务。图 1-2 处理语言需要先理解语言吗？

2025-02-14 08:44:50 240

原创自然语言处理简单发展史

自然语言处理（Natural Language Processing，NLP）是一门借助计算机技术研究人类语言的科学。虽然该领域的发展历史不长，但是其发展迅速并且取得了许多令人印象深刻的成果。在上手实践之前，我想先给大家简单介绍一下自然语言处理的发展历史以及 Transformer 模型的概念，这对于后面理解模型结构会有很大帮助。本章将带大家快速穿越自然语言处理的发展史，了解从统计语言模型到大语言模型的发展历程。

2025-02-14 08:41:34 241

2401_88948076的博客