大模型学习笔记03——模型架构

大模型学习笔记03——模型架构

1、大模型概括

根据输入需求的语言描述(Prompt)生成符合需求的结果(completion)
大模型构建:

  1. 分词(Tokenization):即如何将一个字符串拆分成多个词元。
  2. 模型架构(Model architecture):Transformer架构

2、分词

词元(token)一般在NLP(自然语言处理)中来说,通常指的是一个文本序列中的最小单元,可以是单词、标点符号、数字、符号或其他类型的语言元素。通常,对于NLP任务,文本序列会被分解为一系列的tokens,以便进行分析、理解或处理。在英文中一个"token"可以是一个单词,也可以是一个标点符号。在中文中,通常以字或词作为token。
几种分词方式:

  1. 基于空格的分词
  2. Byte pair encoding(BPE):将每个字符作为词元,并组合经常共同出现的词元。通过使用字符编码进行分词,可以适用于多语言环境,减少低频词汇,提高模型的泛化能力
  3. Unigram model(SentencePiece):定义一个目标函数来捕捉一个好的分词的特征,这种基于目标函数的分词模型可以适应更好分词场景

什么样的是好的分词:

  • 词元不要太多,容易变得难以建模
  • 词元不要太少,单词之间容易无法共享参数
  • 每个词元应该是一个在语言或统计上有意义的单位

3、模型架构

1. endocer-only架构

  • 以BERT为代表,语言模型生成上下文向量表征,但不能直接用于生成文本
  • 常用于分类任务(自然语言理解任务)
  • 该架构的优势是对于文本的上下文信息有更好的理解

2. decoder-only架构

  • 以GPT为代表的自回归语言模型
  • 其优点为能够自然的生成文本
  • 缺点是上下文向量表征只能单向地依赖左侧上下文

3. encoder-decoder架构

  • 优点是上下文向量表征可以双向依赖左右上下文,自由的生成文本
  • 缺点是需要更多的特定训练目标

学习内容地址:添加链接描述

  • 9
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值