StripedHyena架构深度解析
StripedHyena是由 美国弧形研究所(Arc Institute) 专为处理超长生物序列数据(如基因组、蛋白质组)设计的混合架构,其核心目标是平衡长程依赖建模与计算效率。以下是其技术原理、创新点及性能优势的详细拆解:
1. 设计背景与核心挑战
- 传统Transformer的局限性:
标准Transformer的注意力机制复杂度为 O ( n 2 ) O(n^2) O(n2)(n为序列长度),在处理百万级碱基对的基因组数据时,面临内存爆炸和计算成本过高的问题。 - 生物学需求:
基因组功能依赖局部模式(如启动子序列)与远距离相互作用(如染色质三维折叠)的协同,需同时捕捉短程与长程特征。
2. 架构设计原理
StripedHyena通过卷积与注意力的交替堆叠,实现多尺度特征提取:
2.1 模块化单元结构
每个StripedHyena单元由 门控卷积块(Gated CNN) 与 稀疏注意力块(Sparse Attention) 交替组成:
- 门控卷积块:
- 使用 门控线性单元(GLU) 控制信息流,公式:
Output = Conv1D ( X ) ⊗ σ (
- 使用 门控线性单元(GLU) 控制信息流,公式: