Transformer 架构简单理解;GPT-3.5 的架构,向量长度为 :12288;Transformer架构改进:BERT和GPT

773 篇文章 40 订阅 ¥99.90 ¥299.90
637 篇文章 4 订阅 ¥199.90 ¥299.90
230 篇文章 2 订阅

目录

Transformer 架构简单理解

GPT-3.5 的架构,向量长度为 :12288

Transformer工作原理:在多头注意力机制(Multi - Head Attention)的标准操作中,每个头(head)的输入数据是相同的

Transformer架构改进:BERT

BERT:BERT是一种基于Transformer的预训练语言模型,它的最大创新之处在于引入了双向Transformer编码器,这使得模型可以同时考虑输入序列的前后上下文信息。

GPT


  1. Transformer 架构简单理解

    • Transformer 是一种基于自注意力机制(Self - Attention)的深度学习架构,主要用于处理序列数据,如自然语言文本。它摒弃了传统的循环神经网络(RNN)的顺序处理方式,能够并行计算序列中的元素,有效提高处理效率,并且在长序列数据处理上表现出色,能够很好地捕捉序列元素之间的语义关系。
  2. 查询向量(Query)、键向量(Key)和值向量(Value)的作用
    • 查询向量(Query):可以理解为是当前位置元素发出的 “询问信号”,用于寻找序列中与之相关的其他元素。例如,在一个句子中,一个单词通过查询向量来寻找句子里和它语义相关的其他单词。
    • 键向量(Key):相当于其他元素的 “标签” 或
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ZhangJiQun&MXP

等到80岁回首依旧年轻

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值