局部-全局注意力(Local-Global Attention)技术解析
局部-全局注意力是一种混合注意力机制,旨在平衡长序列建模中的计算效率与全局依赖捕捉能力。它通过分阶段处理局部细节和全局上下文,显著降低了传统注意力机制(如Transformer)的复杂度,适用于基因组、自然语言、时序分析等超长序列场景。
1. 设计动机与核心思想
- 传统注意力的瓶颈:
标准自注意力机制的复杂度为 O ( n 2 ) O(n^2) O(n2)(n为序列长度),处理百万级序列(如全基因组)时内存和计算成本不可行。 - 生物学启示:
基因组功能依赖局部模式(如启动子)与远距调控(如增强子-启动子环)的协同,需同时建模短程与长程关系。
核心思想:
将序列划分为局部窗口(处理细节)和全局关键点(捕捉上下文),分阶段融合信息,实现复杂度从 O ( n 2 ) O(n^2)