transformer的作用:已经实现了语音和图像的通用技术。
新一代的backbone,传统的深度学习依赖于网络结构的设计。
2017年 transformer
2018年 BERT
2020年 GPT3
2020年 DERT
2020年 VIT
Q:查询矩阵 查询别人
K:键值矩阵 被查
V:数值矩阵 特征表达
embedding
transformer的作用:已经实现了语音和图像的通用技术。
新一代的backbone,传统的深度学习依赖于网络结构的设计。
2017年 transformer
2018年 BERT
2020年 GPT3
2020年 DERT
2020年 VIT
Q:查询矩阵 查询别人
K:键值矩阵 被查
V:数值矩阵 特征表达
embedding