【论文解析】ELSA: Hardware-Software Co-design for Efficient, Lightweight Self-Attention Mechanism in NN

作者及发刊详情

T. J. Ham et al., “ELSA: Hardware-Software Co-design for Efficient, Lightweight Self-Attention Mechanism in Neural Networks,” 2021 ACM/IEEE 48th Annual International Symposium on Computer Architecture (ISCA), Valencia, Spain, 2021, pp. 692-705, doi: 10.1109/ISCA52012.2021.00060. keywords: {Runtime;Computational modeling;Graphics processing units;Artificial neural networks;Hardware;Energy efficiency;Natural language processing;attention;hardware accelerator;neural network},

A 3 A^3 A3加速器的一作同一人,详细参考:
【论文解析】A3: Accelerating Attention Mechanisms in Neural Networks with Approximation

摘要

正文

主要工作贡献

1)提出了一种新的近似自注意力机制,利用近似的、硬件友好的相似度计算,大大减少了推理过程中自注意力操作的计算量

2)提出了ELSA硬件加速器,探索了自注意力操作的近似和并行计算空间,提升了性能和能效。

3)采用多个具有代表性的基于自注意力的神经网络模型来评估ELSA,证明其可以实现比传统硬件更大的性能和能效提高

实验评估

选用模型: BERT(large)、RoBERTa(large)、ALBERT(large)、SASRec (3-layers model)、BERT4Rec (3-layers, 2-head model)

测试集:

Stanford Question Answering Dataset(SQuAD) 1.1 & 2.0
RACE dataset
IMDB review sentiment analysis dataset
MovieLens 1M dataset

PPA表现

对比平台:
Intel Xeon Gold CPU 6-core
NVIDIA V100 GPU,16GB memory
ELSA-Base:无近似机制
Ideal accelerator:和ELSA-Base有相同的硬件资源,但在1GHz下能维持100%的FP峰值吞吐
ELSA-conservative, moderate, aggressive:有近似机制

性能

实现了一个定制化的模拟器。

12个ELSA的峰值吞吐: 1.088 TOPS/accelerator × 12 ≈ 13 TOPS
Nvidia V100 GPU的峰值吞吐( F P 3 2 3 FP32^3 FP323): 14 TFLOPS

ELSA-Base的延迟是理想加速器的1.03倍。

延迟和带宽数据对比如下图所示:
在这里插入图片描述

面积、功耗

通过Chisel编写,完成功能验证,并次啊用DC综合、布局布线,使其运行在1GHz。

V100:815mm2@12nm,250W TDP
在这里插入图片描述

如图是能效比:
在这里插入图片描述能效图和加速图结合,ELSA的能效加速比相比GPU有两个数量级的提升。(分别是442x、1265x、1726x、2093x)

相比A3

在相同的数据集输入下,ELSA比A3有更小的精度损失。

相比Google TPUv2

运行ALBERT,测试SQuADv1.1/2, and RACE三个数据集,
ELSA-Base在上获得8.3x、 6.4x、 2.4x的峰值FLOPS提升,
ELSA-moderate获得27.8x、20.9x、8.0x的峰值FLOPS提升,
TPU相比GPU获得5.5x、6.7x、5.4x的峰值FLOPS提升

设计思想

self-attention的近似

采用哈希和Hamming距离预测Q和K分量的余弦距离,依次判断出极小Attention Score的位置

硬件设计

在这里插入图片描述

参考文献

无需重新训练,采用模型无关的方法来加速推理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KGback

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值