文章目录
1.什么是LLM
1.1 背景
- LM (language model)
统计语言模型(SLM)Statistical language models
神经语言模型(NLM)Neural language models
预训练语言模型(PLM)Pre-trained language models
大规模语言模型(LLM)Large language models
1.2 LLM定义
- LLM (Large Language Model)
LLM是一种基于深度学习的大型自然语言处理模型,通过大规模数据集的预训练和微调过程学习语言的模式和规律,具有强大的文本生成和理解能力,广泛应用于文本生成,智能对话等多个领域。 - 大预言模型的制作需两个阶段
1、Pre-train:
从巨大的数据集中进行无监督训练
学习一般的语言模式和表征
2、Fine-tune:
根据特定的任务和更小一点的数据集训练与微调
1.3 LLM“大”特点
- 大规模的训练数据
BERT:33亿个单词
GLM-130B:4000亿个单词 - 大规模的参数
GPT-3:1750亿个参数
PaLM-E:5620亿个参数 - 涌现能力(emergent abilities)
- 泛化能力/多功能性
2. LLM的应用
2.1 LLM的应用
- 文本分类,文本生成,情感分析,机器翻译,问答系统等
- 虚拟助手和Chatbot
- 信息检索和知识图谱
- 不同领域
金融:情报分析,投资建议
教育:个性化学习,辅助教学
医疗:疾病诊断,药物研发
艺术:自动生成作品,创意支持
3.Transformer模型
3.1 Attention机制
- 传统RNN模型
LSTM(Long-Short Term Memory)长短期记忆
GRU(Gate Recurrent Unit)门控循环单元
缺陷
顺序计算,模型的并行能力较差
长期依赖问题 - 注意力机制(attention)
神经网络中模仿人类认知注意力的技术
灵活性
可以从序列中任何先前点的状态中提取信息
- Transformer模型:attention机制 + FNN前馈神经网络的结合
3.2 Transformer模型
- Transformer模型
2017年谷歌团队提出Transformer模型
抛弃了传统的RNN和CNN等网络结构
整个网络结构完全由attention机制和FNN前馈神经网络组成
由编码器encoder和解码器decoder组成 - 优势
更适合并行化,减少了训练时间,允许在更大的数据集上训练
可扩展性:架构相对简单,可以轻松扩展到更大规模的模型
泛化能力:适应不同的自然语言处理任务 - Transformer 解决全句信息捕捉及大规模语料库训练的问题
- Transformer模型中引入自注意力机制,具备捕捉全文的能力,改变RNNLM的串行结构,包含Encoder 和 Decoder两个部分。其中,Encoder负责理解源文,Decoder负责产出译文。
- Multi-head Attention机制可并行地学习不同的子空间,提高表达能力及泛化能力,加快模型地训练与推理过程,同时支持对不同类型的注意力进行建模。
3.3 常见LLM
- 常见LLM
- GPT-3(Generative Pre-trained Transformer 3)1750亿个参数的decoder-only模型
- T5(Text-to-Text Transfer Transformer)文本对文本转化模型
- GLM-130B
1300亿个参数的双语模型
4. LLM对世界知识的压缩
4.1 LLM对世界知识的压缩
- LLM = lossless compression
LLM模型的目标是实现对有效信息最大限度的无损压缩 - 压缩的概念
Chinese Room实验
- LLM压缩的方式
通过学习进行知识压缩,训练过程可以被理解为对有效信息进行无损压缩的过程
压缩率越高,模型的智能水平越高,泛化能力越强,对任务的理解也越好 - LLM压缩的体现
原始全部关键信息的保存适应性和泛化能力强
4.2 无损压损 vs 有损压损
- 有损压缩
LLM是对训练数据集的有损压缩 - 无损压缩
还原的对象不同,还原的是对原始数据的最小描述不关心去还原训练数据集,关心的是对世界知识的泛化泛化才是智能 - LLM训练目的
尽可能好的,对大的训练集,做无损压缩,以达到最好的泛化水平 - 提高压缩的水平
规模
更好的架构工具的使用
5 LLM的未来展望与挑战
5.1 LLM的未来展望与挑战
- 展望
模型规模和性能提升
多模态融合
深化领域应用
潜力巨大 - 挑战
训练成本,能耗
环保问题
数据隐私和安全性
数据偏差
LM发展
####1.1 统计语言模型(SLM)Statistical language models
- 统计语言模型(Statistical Language Model,SLM)。
- 统计语言模型,基于20世纪90年代兴起的统计学习方法开发的。
- 定义:对于语言序列词w,wz,w3,….wn,语言模型就是计算该词序列的概率,即P(W1,W2.w.…,w)。简单来说,就是用于计算一个句子出现的概率,也是用于判断一句话是否合理的概率。
- 本质:对语句的概率分布建模
- 公式:给定一个词序列S=(wi,w2,w3,…,w),它的概率表示为:P($)= P(x, = w,…,x„ = w„)= P(w)
= P(w,)P(wz|w,)P(wslwzw,)… P(w,|w, w2… w-1)
2.1 前馈神经网络语言模型
- 前馈神经网络语言模型通过结合词向量(word embedding)和前馈神经网络来解决上面两个问题:
2.2 循环神经网络语言模型
循环神经网络语言模型(RNNLM),引入循环结构,解决长序列依赖问题
2.3 长短期记忆神经网路LSTM
长短期记忆神经网络(LSTM)
LSTM通过某种策略有选择地保留或者遗忘前文的信息解决梯度消失的问题,帮助网络记忆长期信息。后续引入遗忘门,维护从句子中学习的记忆。