【arXiv 2024】北大推出MoE+Attention:混合头注意力MoH,不增参数量,提升效率!

【arXiv 2024】北大推出MoE+Attention:混合头注意力MoH,不增参数量,提升效率!

AI缝合术 2024年12月02日 20:10 湖北

图片

图片

一、论文信息 

图片

 1

论文题目MoH: Multi-Head Attention as Mixture-of-Head Attention

中文题目:  MoH:多头注意力作为混合头注意力

论文链接:https://arxiv.org/pdf/2410.11842?

官方github:https://github.com/SkyworkAI/MoH

所属机构:北京大学深圳电子与计算机工程学院,深圳鹏城实验室,深圳兔智科技,新加坡昆仑2050研究与Skywork AI

关键词:多头注意力机制、混合注意力机制、图像分类、图像生成、大语言模型

图片

二、论文概要 

图片

Highlight

图片

图0. 按类别条件生成图像的 DiT(ImageNet-1K)

研究背景:

引言:多头注意力机制是Transformer模型的核心,但并非所有注意力头都同等重要。一些研究表明,许多注意力头可以被剪枝而不影响准确度。因此,本文提出MoH,通过动态注意力头路由机制,允许每个token选择最相关的注意力头,提高模型性能和推理效率,而不增加参数数量。

相关工作:多头注意力机制和混合专家模型(MoE)是本文的理论基础。多头注意力通过允许不同的低维投影来增强表示能力,而MoE通过激活每个输入的专家子集来扩展深度神经网络的容量。MoH结合了这两种方法,将注意力头视为MoE中的专家,并通过权重和的方式进行输出,增加了注意力机制的灵活性。

本文贡献:

本文提出:一种新的多头注意力机制,称为混合头注意力(MoH),旨在提高Transformer模型的效率,同时保持或超越之前的准确度水平。MoH将注意力头视为混合专家(MoE)机制中的专家,允许每个token选择最相关的注意力头,从而提高推理效率,而不会牺牲准确度或增加参数数量。通过在多个流行模型框架上进行广泛的实验,证明了MoH在使用较少的注意力头的情况下,性能优于标准的多头注意力机制。

图片

三、方法 

图片

 1

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值