继续补充中。
样例句子:A B C. D E.(第一句:A B C. 第二句:D E.)
训练目标均为降低真实值与预测值之间的交叉熵损失。
1. Token Masking(token掩码)
GT: A B C . D E .
After: A [MASK] C . [MASK] E .
其中,Token被随机采样,并被替换为[MASK]元素。训练的目标为输入“A [MASK] C . [MASK] E .”预测为“A B C . D E .”。
2. Token Deletion(token删除)
GT: A B C . D E .
After: A . C . E .
其中,Token被随机采样,并被删除。与1中所提的token掩码方式不同的是,模型必须确认哪些位置缺少输入。训练的目标为输入“A . C . E .”,确定目标生成的位置,预测为“A B C . D E .”。