SUBLLM（Sub-sampling Bypass Module）原理解析及应用场景

THS_Allen

于 2025-07-01 12:42:01 发布

阅读量967

点赞数 34

CC 4.0 BY-SA版权

分类专栏：大模型文章标签： SUBLLM 小米AI实验室

本文链接：https://blog.csdn.net/DK_Allen/article/details/149044255

SUBLLM（Sub-sampling Bypass Module） 是由小米AI实验室提出的高效推理技术，核心思想是通过动态子采样大幅减少计算量，结合语义恢复模块保障输出质量，实现推理速度与资源消耗的突破性优化。以下从原理、架构到应用场景深入解析：

在这里插入图片描述

热力图定位：
使用轻量级注意力热力图预测器（3层CNN），快速识别输入文本中的关键token（如实体、动词、否定词）。
非均匀采样：
对关键区域（如问题核心）保留90% token，非关键区域（如描述性段落）仅保留5-10%，实现 10倍压缩率。
示例：

输入：“量子纠缠如何实现超距通信？爱因斯坦称其为‘幽灵般的超距作用’。”
采样后：“量子纠缠实现超距通信？爱因斯坦称 ‘幽灵般’。”（压缩比 12:60）

残差增强模块：
将子模型输出与原始输入的关键位置特征融合，通过轻量MLP重建完整语义。
数学表达：
$\mathbf{y}_{\text{full}} = \text{MLP}(\mathbf{y}_{\text{sub}} \oplus \mathbf{x}_{\text{key}})$
其中 $\mathbf{x}_{\text{key}}$ 为关键token嵌入， $\oplus$ 表示拼接操作。

在这里插入图片描述

graph LR
    A[原始输入] --> B[动态子采样模块]
    B --> C[旁路子模型]
    C --> D[语义恢复模块]
    D --> E[最终输出]
    A -->|关键位置特征| D  <!-- 原始输入直连恢复模块 -->

200万优质内容无限畅学