keras Tokenizer 踩坑 虽说Tokenizer类可以很方便的做一些文本处理工作。但刚开始使用时就掉坑里了 在获取一个Tokenizer类实例时,如果没有指定lower=False时,它默认是将语料中的所有大写字母变为小写字母的,这就导致以下悲催的情况。 word_docs 是defaultdict类型,即使找不到key值,也不会报错。 word_counts是OrderedDict类型,找不到key直接报错。 示例如下