padding设置 存在2种设置方式: 采用attention_mask对padding处的token进行mask在nn.Embedding中设置padding_ids为pad_token_id, 此时,对应padding_ids的embedding vector 在训练时不会进行更新。 cross_entropy ignore_index表示计算交叉熵时,自动忽略的标签值,默认为 -100