今天在使用 Keras 中的 Tokenizer 进行分词 one-hot的过程中发现了一个问题:在对特征进行向量化之后,查阅索引字典的时候发现有一些词的索引无法查看,错误提示:“KeyError”。
例子:
data = ["I am a student"]
tokenizer1 = Tokenizer()
tokenizer1.fit_on_texts(data)
one_hot_result = tokenizer1.texts_to_matrix(data, mode='binary')
print(one_hot_result)
print(tokenizer1.word_index["I"])
结果:
KeyError: 'I'
解决方法:
tokenizer1 = Tokenizer(lower=False)
lower = True时全部转成小写,因此要将lower设置为False