SUBLLM(Sub-sampling Bypass Module) 是由小米AI实验室提出的高效推理技术,核心思想是通过动态子采样大幅减少计算量,结合语义恢复模块保障输出质量,实现推理速度与资源消耗的突破性优化。以下从原理、架构到应用场景深入解析:
⚙️ 一、技术原理:计算流的三阶段重构
1. 动态子采样(关键token提取)
- 热力图定位:
使用轻量级注意力热力图预测器(3层CNN),快速识别输入文本中的关键token(如实体、动词、否定词)。 - 非均匀采样:
对关键区域(如问题核心)保留90% token,非关键区域(如描述性段落)仅保留5-10%,实现 10倍压缩率。 - 示例:
输入:“量子纠缠如何实现超距通信?爱因斯坦称其为‘幽灵般的超距作用’。”
采样后:“量子纠缠 实现 超距通信?爱因斯坦 称 ‘幽灵般’。”(压缩比 12:60)
2. 旁路计算(子模型推理)
- 子模型架构:
原始LLM的浅层副本(如仅保留前6层),处理压缩后的稀疏输入。 - 计算节省:
参数量降至1/8,FLOPs减少为1/15(Llama3-8B实测从16TFLOPs→1.1TFLOPs)。
3. 语义恢复(上采样重建)
- 残差增强模块:
将子模型输出与原始输入的关键位置特征融合,通过轻量MLP重建完整语义。 - 数学表达:
y full = MLP ( y sub ⊕ x key ) \mathbf{y}_{\text{full}} = \text{MLP}(\mathbf{y}_{\text{sub}} \oplus \mathbf{x}_{\text{key}}) yfull=MLP(ysub⊕xkey)
其中 x key \mathbf{x}_{\text{key}} xkey 为关键token嵌入, ⊕ \oplus ⊕ 表示拼接操作。
🚀 二、架构创新:三模块协同
graph LR
A[原始输入] --> B[动态子采样模块]
B --> C[旁路子模型]
C --> D[语义恢复模块]
D --> E[最终输出]
A -->|关键位置特征| D <!-- 原始输入直连恢复模块 -->
-
动态子采样模块
- 输入:原始Token序列 x ∈ R L \mathbf{x} \in \mathbb{R}^{L} x∈RL
- 输出:压缩序列 x s