在Encoder编码时,需要加入位置编码,位置编码可以学习生成,这里写一个不靠谱的理解:
假设token embedding后已经固定。
因为位置编码的embedding也是随机生成。
相当于在已经固定的token embedding上面加上了随机扰动。
因为位置编码本身就只是一个信息,并不代表有前后的关系,加上随机扰动,让模型自动更新位置信息最终有前后关系也是一样的。
直观的想法。
在Encoder编码时,需要加入位置编码,位置编码可以学习生成,这里写一个不靠谱的理解:
假设token embedding后已经固定。
因为位置编码的embedding也是随机生成。
相当于在已经固定的token embedding上面加上了随机扰动。
因为位置编码本身就只是一个信息,并不代表有前后的关系,加上随机扰动,让模型自动更新位置信息最终有前后关系也是一样的。
直观的想法。