- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 CVPR 2023 Biformer,计算代价小的自注意力机制
然而,这种能力是有代价的:当计算所有空间位置上的成对令牌交互时,它会带来巨大的计算负担和沉重的内存占用。以查询自适应的方式处理一小部分相关令牌,而不会分散对其他无关令牌的注意力,因此它具有良好的性能和较高的计算效率,尤其是在密集的预测任务中。具体来说,对于查询,首先在粗略区域级别过滤掉不相关的键值对,然后在剩余候选区域(即路由区域)的并集中应用细粒度的令牌对令牌关注。我们提出了一种新的通过双层路由的动态稀疏注意力,以实现具有内容感知的更灵活的计算分配。友好的密集矩阵乘法。
2023-11-28 10:32:53 876
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人