【AI】LLM大语言模型Large language models

最新推荐文章于 2024-09-23 10:51:52 发布

观千剑而识器

最新推荐文章于 2024-09-23 10:51:52 发布

阅读量633

点赞数 27

文章标签：人工智能语言模型自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51186267/article/details/141196484

版权

文章目录

1.什么是LLM

1.1 背景

LM (language model)
统计语言模型(SLM)Statistical language models
神经语言模型(NLM)Neural language models
预训练语言模型(PLM)Pre-trained language models
大规模语言模型(LLM)Large language models

1.2 LLM定义

LLM (Large Language Model)
LLM是一种基于深度学习的大型自然语言处理模型，通过大规模数据集的预训练和微调过程学习语言的模式和规律，具有强大的文本生成和理解能力，广泛应用于文本生成，智能对话等多个领域。
大预言模型的制作需两个阶段

1、Pre-train:
从巨大的数据集中进行无监督训练
学习一般的语言模式和表征
2、Fine-tune:
根据特定的任务和更小一点的数据集训练与微调

1.3 LLM“大”特点

大规模的训练数据
BERT:33亿个单词
GLM-130B:4000亿个单词
大规模的参数
GPT-3:1750亿个参数
PaLM-E:5620亿个参数
涌现能力(emergent abilities)
泛化能力/多功能性

2. LLM的应用

2.1 LLM的应用

文本分类，文本生成，情感分析，机器翻译，问答系统等
虚拟助手和Chatbot
信息检索和知识图谱
不同领域
金融:情报分析，投资建议
教育:个性化学习，辅助教学
医疗:疾病诊断，药物研发
艺术:自动生成作品，创意支持

3.Transformer模型

3.1 Attention机制

传统RNN模型
LSTM(Long-Short Term Memory)长短期记忆
GRU(Gate Recurrent Unit)门控循环单元
缺陷
顺序计算，模型的并行能力较差
长期依赖问题
注意力机制(attention)

神经网络中模仿人类认知注意力的技术
灵活性
可以从序列中任何先前点的状态中提取信息

Transformer模型：attention机制 + FNN前馈神经网络的结合

3.2 Transformer模型

Transformer模型
2017年谷歌团队提出Transformer模型
抛弃了传统的RNN和CNN等网络结构
整个网络结构完全由attention机制和FNN前馈神经网络组成
由编码器encoder和解码器decoder组成
优势
更适合并行化，减少了训练时间，允许在更大的数据集上训练
可扩展性:架构相对简单，可以轻松扩展到更大规模的模型
泛化能力:适应不同的自然语言处理任务
Transformer 解决全句信息捕捉及大规模语料库训练的问题
Transformer模型中引入自注意力机制，具备捕捉全文的能力，改变RNNLM的串行结构，包含Encoder 和 Decoder两个部分。其中，Encoder负责理解源文，Decoder负责产出译文。
Multi-head Attention机制可并行地学习不同的子空间，提高表达能力及泛化能力，加快模型地训练与推理过程，同时支持对不同类型的注意力进行建模。

3.3 常见LLM

常见LLM
- GPT-3(Generative Pre-trained Transformer 3)1750亿个参数的decoder-only模型
- T5(Text-to-Text Transfer Transformer)文本对文本转化模型
- GLM-130B
  1300亿个参数的双语模型

4. LLM对世界知识的压缩

4.1 LLM对世界知识的压缩

LLM = lossless compression
LLM模型的目标是实现对有效信息最大限度的无损压缩
压缩的概念
Chinese Room实验
LLM压缩的方式
通过学习进行知识压缩，训练过程可以被理解为对有效信息进行无损压缩的过程
压缩率越高，模型的智能水平越高，泛化能力越强，对任务的理解也越好
LLM压缩的体现
原始全部关键信息的保存适应性和泛化能力强

4.2 无损压损 vs 有损压损

有损压缩
LLM是对训练数据集的有损压缩
无损压缩
还原的对象不同，还原的是对原始数据的最小描述不关心去还原训练数据集，关心的是对世界知识的泛化泛化才是智能
LLM训练目的
尽可能好的，对大的训练集，做无损压缩，以达到最好的泛化水平
提高压缩的水平
规模
更好的架构工具的使用

Jack Rae Stanford MLSys分享链接

5 LLM的未来展望与挑战

5.1 LLM的未来展望与挑战

展望
模型规模和性能提升
多模态融合
深化领域应用
潜力巨大
挑战
训练成本，能耗
环保问题
数据隐私和安全性
数据偏差

LM发展

####1.1 统计语言模型(SLM)Statistical language models

统计语言模型(Statistical Language Model，SLM)。
- 统计语言模型，基于20世纪90年代兴起的统计学习方法开发的。
- 定义:对于语言序列词w，wz，w3,….wn，语言模型就是计算该词序列的概率，即P(W1,W2.w.…,w)。简单来说，就是用于计算一个句子出现的概率，也是用于判断一句话是否合理的概率。
- 本质:对语句的概率分布建模
- 公式:给定一个词序列S=(wi,w2,w3,…,w)，它的概率表示为:P($)= P(x, = w,…,x„ = w„)= P(w)
  = P(w,)P(wz|w,)P(wslwzw,)… P(w,|w, w2… w-1)

2.1 前馈神经网络语言模型

前馈神经网络语言模型通过结合词向量(word embedding)和前馈神经网络来解决上面两个问题:

2.2 循环神经网络语言模型

循环神经网络语言模型(RNNLM)，引入循环结构，解决长序列依赖问题

2.3 长短期记忆神经网路LSTM

长短期记忆神经网络(LSTM)
LSTM通过某种策略有选择地保留或者遗忘前文的信息解决梯度消失的问题，帮助网络记忆长期信息。后续引入遗忘门，维护从句子中学习的记忆。

观千剑而识器

关注

27
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。