language model(LM)没有用encoder,只用了decoder,
在decoder代码里,transformer_prepare_decoder
方法里调用了shift_right_3d
方法
使decode_input
的sequence向右错一位,即
target [1,2,3,4]
input [0,1,2,3]
正好是预测下一个词
language model(LM)没有用encoder,只用了decoder,
在decoder代码里,transformer_prepare_decoder
方法里调用了shift_right_3d
方法
使decode_input
的sequence向右错一位,即
target [1,2,3,4]
input [0,1,2,3]
正好是预测下一个词