大规模语言模型：从理论到实践（1）

最新推荐文章于 2025-02-16 16:55:22 发布

Ksmile、

最新推荐文章于 2025-02-16 16:55:22 发布

阅读量1.6k

点赞数 30

分类专栏：大规模语言模型：从理论到实践文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/m0_56569131/article/details/143433086

版权

1、绪论

大规模语言模型（Large Language Models，LLM）是由包含数百亿以上参数的深度神经网络构建的语言模型，采用自监督学习方法通过大量无标注文本进行训练。自2018年以来，多个公司和研究机构相继发布了多种模型，如BERT和GPT，并在自然语言处理任务中取得了显著的成果。尤其是2022年11月发布的ChatGPT，引发了广泛关注，使得用户能够通过自然语言与系统交互，完成多种任务，包括问答、分类、摘要、翻译和聊天等。本文主要介绍大规模语言模型的基本概念、发展历程和构建流程。

1.1、大规模语言模型基本概念

直接计算整个句子的联合概率是不现实的，因为涉及到的参数非常庞大。使用链式法则可以将这个复杂的计算分解为几个较小的、易于估计的条件概率。语言是人类与动物的重要区别，许多知识以自然语言的形式记录和传播。语言模型的目标是建模自然语言的概率分布。词汇表 $V$ 上的语言模型使用链式法则可表示为：

$P(w_1 w_2 \ldots w_m) = P(w_1) P(w_2 | w_1) P(w_3 | w_1 w_2) \ldots P(w_m | w_1 w_2 \ldots w_{m-1}) = \prod_{i=1}^{m} P(w_i | w_1 w_2 \ldots w_{i-1})$

这表示词序列的生成过程为单词逐个生成。例如，对于句子“把努力变成一种习惯”，其概率计算为：

通过上述过程将联合概率转换为多个条件概率的乘积。为减少模型的参数空间，可以假设任意单词 $w_i$ 的出现概率只与过去 $n-1$ 个词相关：

$P(w_i | w_1 w_2 \ldots w_{i-1}) = P(w_i | w_{i-n+1} \ldots w_{i-1})$

这种模型称为 $n$ 元语法或 $n$ 元文法（n-gram）模型。

Q：能举例说明一下直接计算句子得联合概率和使用链式法则计算的方式的区别吗？

A：

1. 词汇表和语料库

首先，我们需要一个词汇表（vocabulary）和一个训练好的语料库。语料库中的文本数据将用于统计各个词及其组合出现的频率。

2. 频率统计

在语料库中，统计每个词的出现频率以及每对或三词组合的出现频率。例如&#x

最低0.47元/天解锁文章