Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs

本文是LLM系列文章,针对《Transformer-Lite: High-efficiency Deployment of Large Language
Models on Mobile Phone GPUs》的翻译。

Transformer Lite:在手机GPU上高效部署大型语言模型

摘要

大语言模型(LLM)广泛应用于智能助手、文本摘要、翻译和手机多模态等任务。然而,当前用于设备上LLM部署的方法保持较慢的推理速度,这导致较差的用户体验。为了促进LLM在设备GPU上的高效部署,我们提出了四种优化技术:(a)支持动态形状模型推理的基于符号表达的方法;(b) 操作员优化和执行优先级设置,以提高推理速度并减少电话滞后;(c) 称为E0M4的FP4量化方法,以减少去量化开销;(d) 一种基于子张量的技术,以消除在LLM推断之后复制KV缓存的需要。此外,我们在移动推理引擎Transformer Lite中实现了这些方法,该引擎与高通公司和MTK处理器都兼容。我们使用LLM评估了Transformer Lite的性能,LLM具有从2B到14B不等的各种架构和参数。具体而言,我们为ChatGLM2 6B实现了121token/s和14token/s的预填充和解码速度,为较小的Gemma 2B分别实现了330token/s和30token/s的解码速度。与基于CPU的FastLLM和基于GPU的MLC-LLM相比,我们的引擎预填充速度提高了10倍以上,解码速度提高了2~3倍。

1 引言

2 方法

3 实验

4 相关工作

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
MSFT-YOLO是基于Transformer模型改进的Yolov5用于检测SE(电子元器件)缺陷的方法。 Transformer是一种先进的神经网络架构,主要用于自然语言处理任务,但在计算机视觉领域也得到了广泛应用。Yolov5则是一种经典的目标检测算法,通过将图像分成多个网格单元并预测每个单元中的物体,实现了实时目标检测。 在MSFT-YOLO中,我们将Transformer应用于Yolov5的特征提取阶段,以提高对SE缺陷的检测能力。传统的Yolov5使用的是卷积神经网络作为特征提取器,但这种方法在处理复杂的缺陷图像时可能会存在一定的局限性。 通过引入Transformer,我们可以将图像中的每个像素看作是一组序列数据,并利用Transformer的自注意力机制来捕捉不同位置之间的依赖关系。这种方式可以提取出更具语义信息的特征表示,从而有效地检测SE缺陷。 在训练过程中,我们使用大量带有标注的SE缺陷图像来优化网络参数。通过进行端到端的训练,我们可以不断调整网络权重以提高检测精度。此外,我们还可以使用数据增强技术来扩增数据集,从而提升模型的鲁棒性和泛化能力。 实验结果表明,MSFT-YOLO相较于传统的Yolov5在SE缺陷检测方面取得了更好的性能。它能够识别出更多的缺陷类型,同时还具备较低的误检率。这使得它在工业制造等领域中有着广泛的应用前景,能够提高产品质量和生产效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值