大模型学习笔记03——模型架构

最新推荐文章于 2024-10-11 17:04:33 发布

等风来随风飘

最新推荐文章于 2024-10-11 17:04:33 发布

阅读量512

点赞数 9

分类专栏：大模型读书笔记文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29787929/article/details/135643515

版权

大模型读书笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

大模型学习笔记03——模型架构

1、大模型概括

根据输入需求的语言描述（Prompt）生成符合需求的结果（completion）
大模型构建：

分词（Tokenization）：即如何将一个字符串拆分成多个词元。
模型架构（Model architecture）：Transformer架构

2、分词

词元(token)一般在NLP（自然语言处理）中来说，通常指的是一个文本序列中的最小单元，可以是单词、标点符号、数字、符号或其他类型的语言元素。通常，对于NLP任务，文本序列会被分解为一系列的tokens，以便进行分析、理解或处理。在英文中一个"token"可以是一个单词，也可以是一个标点符号。在中文中，通常以字或词作为token。
几种分词方式：

基于空格的分词
Byte pair encoding（BPE）：将每个字符作为词元，并组合经常共同出现的词元。通过使用字符编码进行分词，可以适用于多语言环境，减少低频词汇，提高模型的泛化能力
Unigram model（SentencePiece）：定义一个目标函数来捕捉一个好的分词的特征，这种基于目标函数的分词模型可以适应更好分词场景

什么样的是好的分词：

词元不要太多，容易变得难以建模
词元不要太少，单词之间容易无法共享参数
每个词元应该是一个在语言或统计上有意义的单位

3、模型架构

1. endocer-only架构

以BERT为代表，语言模型生成上下文向量表征，但不能直接用于生成文本
常用于分类任务（自然语言理解任务）
该架构的优势是对于文本的上下文信息有更好的理解

2. decoder-only架构

以GPT为代表的自回归语言模型
其优点为能够自然的生成文本
缺点是上下文向量表征只能单向地依赖左侧上下文

3. encoder-decoder架构

优点是上下文向量表征可以双向依赖左右上下文，自由的生成文本
缺点是需要更多的特定训练目标

注

学习内容地址：添加链接描述

等风来随风飘

关注

9
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。