一、作用
- 信息泄露:如果在训练中使用未来位置的信息(例如,右侧的单词),模型会作弊,因为在实际推理过程中我们无法提前知道未来的信息。
- 增量更新:我们希望对于重复的单词,预测结果时一样的,并且每个预测结果只使用左侧的信息,不使用右侧的信息。
二、具体过程
- 先看
q
0
q_0
q0, 屏蔽
x
1
,
x
2
x_1, x_2
x1,x2的k。
- 再看 q 1 q_1 q1,屏蔽 x 2 x_2 x2
3. 再看
q
2
q_2
q2, 都不屏蔽。
三、简略过程
b
1
b_1
b1由
a
1
a_1
a1生成
b
2
b_2
b2由
a
1
,
a
2
a_1, a_2
a1,a2生成
b
3
b_3
b3由
a
1
,
a
2
,
a
3
a_1, a_2, a_3
a1,a2,a3生成
b
4
b_4
b4由
a
1
,
a
2
,
a
3
,
a
4
a_1, a_2, a_3, a_4
a1,a2,a3,a4生成
四、具体例子解释(这个解释有些问题,欢迎大家评论留言)
由 我 -> 爱,北京,天安门
由 我,爱 -> 北京,天安门
由 我,爱,北京 -> 天安门