无聊复习下transformer,不太清楚decoder上图这里具体是怎么工作的,论文前后文也没仔细讲。于是我克隆了下论文中的仓库,用vim仔细找了找。发现在tensor2tensor/layers/common_attention.py
的4452-4453行:
if memory_antecedent is None:
memory_antecedent = query_antecedent
也就是说encoder的输出直接作为Q矩阵输入decoder中间那层了。
无聊复习下transformer,不太清楚decoder上图这里具体是怎么工作的,论文前后文也没仔细讲。于是我克隆了下论文中的仓库,用vim仔细找了找。发现在tensor2tensor/layers/common_attention.py
的4452-4453行:
if memory_antecedent is None:
memory_antecedent = query_antecedent
也就是说encoder的输出直接作为Q矩阵输入decoder中间那层了。