Exponentially Faster Language Modelling

515 篇文章 3 订阅

已下架不支持订阅

本文介绍了 UltraFastBERT,一种使用神经元指数部分进行个体推断的BERT变体,实现了78倍CPU加速和40倍批量推理加速。仅使用0.3%的神经元,性能与标准BERT相当。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《Exponentially Faster Language Modelling》的翻译。

指数级快速的语言建模

摘要

语言模型只需要使用神经元的指数部分来进行个体推断。
作为证据,我们提出了UltraFastBERT,这是一种BERT变体,在推理过程中使用0.3%的神经元,同时与类似的BERT模型不相上下。UltraFastBERT在4095个神经元中仅选择性地参与每一层推断的12个。这是通过用快速前馈网络(FFF)代替前馈网络来实现的。
虽然目前还没有真正有效的实现来释放条件神经执行的全部加速潜力,但我们提供了比优化的基线前馈实现高78倍加速的高级CPU代码,以及比等效的分批前馈推理高40倍加速的PyTorch实现。
我们发布我们的训练代码、基准测试设置和模型权重地址

1 引言

2 模型

3 推理

4 结论

我们提出了UltraFastBERT,这是(填充)BERT架构的一个修改版本,在其中间层使用快速前馈而不是前馈网络。UltraFastBERT证明了大型语言模型只需要使用其参数的指数部分来执行单独的推

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值