- 博客(1)
- 收藏
- 关注
原创 论文笔记:Dissecting Recall of Factual Associations in Auto-Regressive Language Models
其中,𝐗是第l层的所有令牌表示组成的矩阵,γ是逐行进行softmax归一化,**Al,𝑗 ∈ ℝ𝑁×𝑁编码了第l层中第j个注意力头计算得到的权重**,𝑀l,𝑗 是Al,𝑗 的掩码(对于所有𝑐 > 𝑟,𝑀= −∞,其余为零)。先得到每个token对应的向量 xi,x_i通过L个Transformer层进行变换最终得到x_L_i,decoder-only模型每个层由**多头自注意(MHSA)子层**和随后的**多层感知机(MLP)子层**组成。**结果**:**最后一个主题位置的属性比率最高,接近50%。
2024-03-03 11:13:36 391
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人