![](https://img-blog.csdnimg.cn/20190918140145169.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Transformer系列
文章平均质量分 75
分享Transformer的最新研究进展。
leo0308
AI攻城狮
展开
-
自然语言处理的分词与词嵌入
NLP中分词, 词嵌入详解。原创 2023-07-05 23:35:31 · 723 阅读 · 0 评论 -
Transformer模型深入理解
1 模型总览整个模型的结构是标准的Encoder-Decoder结构, Encoder部分堆叠6个相同的encoder层, Decoder部分同样堆叠6个相同的decoder层。继续深入模型的内部, 每个encoder层包含2部分: 一个自注意力层和一个前馈层。每个decoer层包含3部分: 一个自注意力层, 一个交叉注意力层和一个前馈层。再继续深入,网络还采用了残差结构, 每个自注意力层和前馈层之后都进行了残差连接, 并且使用了归一化。2 Attention机制理解3 实例解析4 参考原创 2021-11-21 20:13:41 · 1820 阅读 · 3 评论 -
HAT: Hardware-Aware Transformers for Efficient Natural Language Processing论文解读
1 介绍Transformer网络取得了非常大的成功并具有广泛的应用。 然而由于它巨大的计算代价,使得部署到手机等端侧设备面临巨大的挑战。在评估Transformer网络的效率时有两个常见的陷进: 1) FLOPs不能反映真实的时延; 2)不同硬件偏好不同的Transformer结构。上图表明, 在一个硬件上表现好的网络在另一个硬件上表现反而不好。上图表明: 1)FLOPs在lateny并不完全是线性关系; 2)不用硬件的影响因素不同。受NAS成功的启发, 我们提出了搜索硬件感知的Transf原创 2021-12-14 23:52:19 · 3191 阅读 · 0 评论 -
Dynamic Transformer for Efficient Machine Translation on Embedded Devices论文解读
0 引言这篇文章是基于HAT做的, 主要解决的是嵌入式设备运行时的资源状态和搜索网络时不一致的问题, 在运行时还会动态微调网络,这就是标题中Dynamic的体现。 关于HAT可参考我的另一篇博客HAT: Hardware-Aware Transformers for Efficient Natural Language Processing论文解读1 动机传统的网络搜索都是静态的, 也就是说对于一个特定的硬件设备, 我们会搜索一个在这个设备上最优的网络。 但是嵌入式设备上情况要复杂一些, 比如设备原创 2022-04-02 20:27:06 · 257 阅读 · 0 评论 -
Transformer最新综述
0 前言Transformer在人工智能领域取得了非常的成功, 如NLP, CV, 音频处理等等。 针对Transformer的改进工作也层出不穷, 这些Transformer的变体大概可以分为3类:模型结构的优化, 预训练, 以及Transformer的应用。1 模型结构的优化1.1 模块级的优化1.1.1 注意力机制1.1.1.1 稀疏Attention1.1.1.2 线性Attention1.1.1.3 查询原型和内存压缩1.1.1.4 低秩自注意力1.1.1.5 先验的注意力1原创 2021-12-17 20:29:46 · 4917 阅读 · 0 评论 -
Vision Transformer综述
0 前言Transformer在NLP领域取得了巨大的成功, 大量研究者开始在视觉领域尝试Transformer, 并取得了很多优于传统CNN网络的结果。这些研究大致可以归为以下几类:backbone, high/mid-level vision, low-level vision, video processing, muti-modal task, efficient transformer.下表列出了每一个分类里面的代表性工作, 可以作为一份学习指南。1 典型工作1.1 backbone原创 2021-12-19 22:31:24 · 670 阅读 · 0 评论 -
共享权重的Transformer网络
论文:[Lessons on Parameter Sharing across Layers in Transformers](Lessons on Parameter Sharing across Layers in Transformers)代码:https://github.com/takase/share_layer_params1 介绍这篇文章提出了三种Transformer网络权重共享的方式, 降低了参数量。 在同参数量的情况下可以达到比原始Transformer网络更高的精度。假设参原创 2022-03-29 16:54:32 · 2387 阅读 · 0 评论 -
深层Transformer的一些工作
0 引言自从Transforme提出之后, 在各个领域获得了巨大的成功。 在提升精度这条道路上, 有很多的改进工作。提升精度一个的一个常用做法就是把模型变大, 增大模型的容量, 从而提升模型的精度。 增大模型有2个方向,一个是增加宽度, 另一个是增加宽度。 像Transformer-big版本就是增加了宽度。但是对Transformer网络, 单纯地直接增加深度通常会遇到梯度消失/爆炸等造成训练不稳定的问题。 因此需要额外的手段解决这些问题。本文分享几篇通过不同方式加深Transformer网络深度原创 2022-04-01 20:06:22 · 550 阅读 · 0 评论