
LLM指纹底层技术——注意力机制变体
通过精心设计的探针任务,可以清晰地看到其信息流动的通路是密集的全连接(MHA),还是带有局部窗口(SWA),亦或是分组共享(GQA)。它们通过改变“一个词可以关注哪些其他的词”这一基本规则,直接影响了模型构建上下文依赖关系的方式,从而在生成文本的。不同的注意力机制就像不同类型的思维模式,差异会在模型生成的文本中留下深刻且可识别的印记。这条路径的核心思想是“一个词的含义主要由其邻近的词决定,没必要关注所有词”。不同的效率优化思路,形成了不同的技术路径和独特的指纹。)而发展出的各种修正或近似版本的注意力机制。





























