训练数据报错,说输入输出batch_size不一致,这里面有可能是tokenizer分词导致的,我这里模型要求输入和输出的句子长度一致,但是如果仅仅用len判读input和target两句话是不够的。
比如下面两句话:
input: 每天都要处理大量的信息,最多时半年有七十多名人找上门来。
target: 每天都要处理大量的信息,最多时半年有70多名人找上门来。
如果是单纯的判断两句话长度是一致的,但是tokenizer分词后长度是不一致的。
可以通过tokenizer分词过滤句子。