人工智能学习①

LLM背景知识介绍

大语言模型 (LLM) 背景  用于理解和生成人类语言,能够处理诸如文本分类、问答、翻译和对话等多种自然语言任务。

  • 语言模型 (Language Model, LM)  :给定一个短语(一个词组或者一句话)语言模型可以生成(预测) 接下来的一个词
  •      基于规则和统计的语言模型
  •      神经语言模型
  •      预训练语言模型
  •      大语言模型
  • 1.什么是大语言模型?思考总结Thinking summary答案:指包含数千亿 (或更多) 参数的语言模型
  • 2.语言模型的主要类别是什么?答案:N-Gram、神经网络、预训练模型、大语言模型
  • 3.常用的N-Gram语言模型是什么?答案:bigram、trigram
  • 语言模型的评估指标 1.语言模型的评估指标是什么?答案:Accuracy、Precision、Recall、BLEU、ROUGE、PPL思考总结Thinking summary
  • 2.怎么理解BLEU指标?答案:评估一种语言翻译成另一种语言的文本质量的指标.. 取值范围是[0, 1], 越接近1, 表明翻译质量越好.
  • 3.怎么理解ROUGE指标?答案:ROUGE指标用来衡量生成结果和标准结果的匹配程度,不同的是ROUGE基于召回率,BLEU更看重准确率。
  • 4.怎么理解PPL指标? 答案:PPL用来度量一个概率分布或概率模型预测样本的好坏程度

指标 BLEU分数衡量机器翻译的质量,接近1表示高质量。ROUGE指标评估自动文本摘要的准确性。PPL越小,表示模型预测能力越好。 

python实现BLEU指标的计算

python实现ROUGE指标的计算

  • 1. LLM主要类别
    • LLM分类一般分为三种:自编码模型(encoder)、自回归模型(decoder)和序列到序列模型(encoder-decoder)
  • 2. 自编码模型
    • 1. 什么是自编码模型?答案:是在输入中随机MASK掉一部分单词,根据上下文预测这个词。思考总结Thinking summary
    • 2. BERT模型的核心架构?答案:transformer的Encoder模块.
    • 3.BERT的预训练任务?答案:MLM 和 NSP
    • 模型 BERT AE模型如BERT采用Encoder-Only结构,通过随机mask输入单词并预测这些单词来训练。这类模型适用于内容理解任务,如情感分析和提取式问答。 更适合NLU任务, 不适合用NLG任务.
      • 下Embedding模块
      • 中Transformer模块.
      • 上预微调模块.

  • 3. 自回归模型
    • 1. 什么是自回归模型?答案:从左往右学习的模型,只能利用上文或者下文的信息.
    • 2.GPT模型的核心架构?答案:transformer的Decoder模块(去除中间的第二个子层).
    • 3.GPT的预训练任务?答案:无监督的预训练 和 有监督任务的微调
  • 4. 序列到序列模型
    • T5

  • 1. 什么是序列到序列模型?答案:同时使用编码器和解码器,它将每个task视作序列到序列的转换/生成思考总结Thinking summary
  • 2.T5模型的核心架构?答案:transformer架构
  • 3.T5的预训练任务?答案:采用类似于BERT模型的MLM预训练任务和多任务预训练

  • 5. 大模型主流架构-Decoder-only
    • 1.LLM主要类别架构?答案:Encoder-Only、Decoder-Only、Encoder-Decoder
    • 2.自编码模型的基本原理?答案:是在输入中随机MASK掉一部分单词,根据上下文预测这个词.
    • 3.自回归模型的基本原理?答案:从左往右学习的模型,只能利用上文或者下文的信息.
    • 4.序列到序列模型的基本原理?答案:同时使用编码器和解码器. 它将每个task视作序列到序列的转换/生成.

  • 1.什么是ChatGPT
    • ChatGPT是2022年11月由OpenAI发布的一款聊天机器人,能学习人类语言进行对话,完成撰写邮件、脚本、翻译和代码等任务。
  • 2. GPT-1介绍
    • GPT采用的是单向Transformer模型
    • 1. GPT-1模型架构?答案:Transformer的Decoder模块(去除中间第二个子层)
    • 2. GPT-1预训练任务?答案:1、无监督预训练;2有监督任务微调.
    • 3. GPT-1模型基本参数?答案:12层、12个head、768维、参数量1.17亿
  • 3. GPT-2介绍
    • 文本生成效果好, 缺点:有些任务上的表现不如随机
    • GPT-2表明随着模型容量和数据量的增大, 其潜能还有进一步开发的空间, 基于这个思想, 诞生了我们下面要介绍的GPT-3
    • 1. GPT-2模型架构?答案:相较GPT-1做了微小的改动:1.Pre_LayerNorm; 2.最后一层后加入LN层;3.序列长度扩大到1024
    • 2. GPT-2预训练任务?答案:无监督预训练
    • 3. GPT-2提出的新思想?答案:zero-shot:零样本学习,达到开箱即用的效果.
    • 4. GPT-3介绍
  • GPT系列采用Transformer架构,GPT-3通过大量参数学习大数据,依赖Transformer的拟合能力收敛模型,完成多种任务。
  • 1. GPT-3模型架构?答案:和GPT-2基本一致,提出sparse attention
  • 2. GPT-3预训练任务?答案:无监督预训练
  • 3. GPT-3提出的新思想?答案:ICL:Few-Shot、One-Shot、Zero-Shot

Chatgpt

 监督学习 和训练奖励模型

  • 1. ChatGPT模型原理?答案:有监督的微调+奖励模型+强化学习
  • 2. 强化学习的关键信息?答案:1.一种机器学习方法;2.关注智能体和环境的交互;3.目标追求最大回报

  • 1. LLM主流大模型类别
    • ChatGLM LLaMA Bloom Baichuan
  • 2. ChatGLM-6B模型
    • 训练目标
    • 模型结构
  • 1. ChatGLM-6B的模型架构?答案:Prefix-Decoder-Only:一种基于GLM的自回归空白填充目标的通用预训练模型
  • 2. ChatGLM-6B的训练目标?答案:在输入文本中随机挖去一些连续的文本片段,然后训练模型按照任意顺序重建这些片段.
  • 3. ChatGLM-6B模型的改动点?答案:Embedding层梯度缩减;Deep Norm; GeGLU激活函数;RoPE位置编码

  • 3. LLaMA模型  开源
    • LLaMA 的训练目标是语言模型,即根据已有的上文去预测下一个词.
    • 1.LLaMA的模型架构?答案:和 GPT 系列一样,LLaMA 模型也是 Decoder-only架构
    • 2. LLaMA的训练目标?答案:根据已有的上文去预测下一个词.
    • 3. LLaMA模型的改动点?答案:RMS-Norm(Pre_Layer Norm); SwiGLU激活函数;RoPE位置编码
  • 4. BLOOM模型
    • BLOOM 的训练目标是语言模型,即根据已有的上文去预测下一个词.
    • 1.BLOOM的模型架构?答案:和 GPT 系列一样,BLOOM 模型也是 Decoder-only架构
    • 2. BLOOM的训练目标?答案:根据已有的上文去预测下一个词.
    • 3. BLOOM模型的改动点?答案:Embedding Layer Norm; Pre Layer Norm; GeLU激活函数;ALiBi位置编码
  • 5. Baichuan-7B模型
    • Baichuan-7B 的训练目标也是语言模型,即根据已有的上文去预测下一个词。
    • 1.Baichuan-7B的模型架构?答案:和 LLaMA架构一致,也是 Decoder-only架构
    • 2. Baichuan-7B的训练目标?答案:根据已有的上文去预测下一个词.
    • 3. Baichuan-7B模型的改动点?答案:Pre Layer Norm; SwiGLU激活函数;RoPE位置编码

  • 1.目录什么是NLP四范式
  • 2. Fine-Tuning
  • 3. Prompt-Tuning技术介绍
  • 4. Prompt-Tuning入门方法

  • 1.目录什么是NLP四范式
  • 2. Fine-Tuning
    • Fine-Tuning是迁移学习的一种方式,用于将预训练模型适应特定任务或领域,通过在任务特定数据上继续训练预训练模型来实现。
      • 替代方法: Prompt-Tuning通过添加模板避免增加额外参数,使模型能在小样本或零样本场景下取得良好效果。
  • 3. Prompt-Tuning技术介绍
    • 1.NLP任务四范式?答案:1.传统机器学习;2.深度学习模型;3.预训练+fine-tuning;4.预训练+prompt+
    • 2. 什么是Fine-Tuning?答案:采用已经在大量文本上进行训练的预训练语言模型,然后在小规模的任务特定文本上继续训练它.
    • 3. Prompt-Tuning的实现?答案:1.构建模版Template;2.标签词映射Verbalizer;3.训练
  • 4. Prompt-Tuning入门方法
    • Prompt-Tuning的鼻祖----GPT3
    • PET模型
    • 模板类别
      • Soft Prompt 连续提示使用参数化模板引导模型生成特定要求的文本,其参数可根据任务调整,优点是在语义空间中仅需表示一个向量无需明确指定模板中各token的具体内容
      • 1.什么是Prompt-Tuning?答案:通过添加模板的方法来避免引入额外的参数,从而让模型可以在小样本(few-shot)或者零样本(zero-shot)场景下达到理想的效果
      • 2.PET模型的主要组件?答案:Pattern(模板)与Verbalizer(标签词映射).
      • 3.P-tuning V1 的核心思想?答案:P-tuning 固定 LLM 参数, 利用多层感知机 (MLP)和 LSTM 对 Prompt 进行编码,编码之后与其他向量进行拼接之后正常输入 LLM. 注意,训练之后只保留 Prompt 编码之后的向量即可,无需保留编码器

  •  模板类别
    • Soft Prompt 连续提示使用参数化模板引导模型生成特定要求的文本,其参数可根据任务调整,优点是在语义空间中仅需表示一个向量无需明确指定模板中各token的具体内容
    • 1.什么是Prompt-Tuning?答案:通过添加模板的方法来避免引入额外的参数,从而让模型可以在小样本(few-shot)或者零样本(zero-shot)场景下达到理想的效果
    • 2.PET模型的主要组件?答案:Pattern(模板)与Verbalizer(标签词映射).
    • 3.P-tuning V1 的核心思想?答案:P-tuning 固定 LLM 参数, 利用多层感知机 (MLP)和 LSTM 对 Prompt 进行编码,编码之后与其他向量进行拼接之后正常输入 LLM. 注意,训练之后只保留 Prompt 编码之后的向量即可,无需保留编码器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值