大规模语言模型:从理论到实践(1)

1、绪论

        大规模语言模型(Large Language Models,LLM)是由包含数百亿以上参数的深度神经网络构建的语言模型,采用自监督学习方法通过大量无标注文本进行训练。自2018年以来,多个公司和研究机构相继发布了多种模型,如BERT和GPT,并在自然语言处理任务中取得了显著的成果。尤其是2022年11月发布的ChatGPT,引发了广泛关注,使得用户能够通过自然语言与系统交互,完成多种任务,包括问答、分类、摘要、翻译和聊天等。本文主要介绍大规模语言模型的基本概念、发展历程和构建流程。

1.1、大规模语言模型基本概念

       直接计算整个句子的联合概率是不现实的,因为涉及到的参数非常庞大。使用链式法则可以将这个复杂的计算分解为几个较小的、易于估计的条件概率。 语言是人类与动物的重要区别,许多知识以自然语言的形式记录和传播。语言模型的目标是建模自然语言的概率分布。词汇表 V 上的语言模型使用链式法则可表示为:

P(w_1 w_2 \ldots w_m) = P(w_1) P(w_2 | w_1) P(w_3 | w_1 w_2) \ldots P(w_m | w_1 w_2 \ldots w_{m-1}) = \prod_{i=1}^{m} P(w_i | w_1 w_2 \ldots w_{i-1})        

        这表示词序列的生成过程为单词逐个生成。例如,对于句子“把努力变成一种习惯”,其概率计算为:

        通过上述过程将联合概率转换为多个条件概率的乘积。为减少模型的参数空间,可以假设任意单词 w_i 的出现概率只与过去 n-1 个词相关:

P(w_i | w_1 w_2 \ldots w_{i-1}) = P(w_i | w_{i-n+1} \ldots w_{i-1})

        这种模型称为 n 元语法或 n 元文法(n-gram)模型。

Q:能举例说明一下直接计算句子得联合概率和使用链式法则计算的方式的区别吗?

A: 

1. 词汇表和语料库

首先,我们需要一个词汇表(vocabulary)和一个训练好的语料库。语料库中的文本数据将用于统计各个词及其组合出现的频率。

2. 频率统计

在语料库中,统计每个词的出现频率以及每对或三词组合的出现频率。例如&#x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值