改进点:
1. 原始transformer使用的是绝对位置编码,基于正弦函数的位置嵌入是距离感知的,缺乏方向性。中间加入线性变换之后,没有相对位置信息。第一点改进是在计算attention score的时候,考虑了相对位置信息,而这个相对位置本身是可以编码到距离信息和方向信息的。
2. 第二点改进就是把attention公式中的缩放系数给去掉了,使得产生的attention score会使分数更加锐利,而这种锐利的注意力是更适用于NER任务的,因为句子中少数字可以组成实体,大部分非实体,平滑处理反而会增加噪声。