因为毕设项目,第一次做文本数据预处理,太菜了, 踩了一堆坑,后来遇到一个问题
<ipython-input-11-107660a37432> in <module>()
1 #TEXT_FIELD.build_vocab(question_dataset, vectors=pre_vectors)
----> 2 TEXT_FIELD.build_vocab(answer_dataset, question_dataset, vectors=pre_vectors)
3 vocab = TEXT_FIELD.vocab # 词表
4 vectors = TEXT_FIELD.vocab.vectors # 预训练的词向量
C:\ProgramData\Anaconda3\lib\site-packages\torchtext\data\field.py in build_vocab(self, *args, **kwargs)
302 counter.update(x)
303 except TypeError:
--> 304 counter.update(chain.from_iterable(x))
305 specials = list(OrderedDict.fromkeys(
306 tok for tok in [self.unk_token, self.pad_token, self.init_token,
TypeError: 'float' object is not iterable
百度没结果,后来debug发现原来数据集里面有nan,之前我做数据处理的时候是把is_best作为标准的,没想到best_answer里面也有nan。
最后,
debug,永远滴神!