Keras 分词器 Tokenizer大小写问题

最新推荐文章于 2022-08-12 17:24:23 发布

tedist

最新推荐文章于 2022-08-12 17:24:23 发布

阅读量853

点赞数 2

分类专栏：代码记录文章标签： Tokenizer KeyError

本文链接：https://blog.csdn.net/qq_41372972/article/details/100859159

版权

代码记录专栏收录该内容

3 篇文章 0 订阅

订阅专栏

今天在使用 Keras 中的 Tokenizer 进行分词 one-hot的过程中发现了一个问题：在对特征进行向量化之后，查阅索引字典的时候发现有一些词的索引无法查看，错误提示：“KeyError”。

例子：

data = ["I am a student"]
tokenizer1 = Tokenizer()
tokenizer1.fit_on_texts(data)
one_hot_result = tokenizer1.texts_to_matrix(data, mode='binary')
print(one_hot_result)
print(tokenizer1.word_index["I"])

结果：

KeyError: 'I'

解决方法：

tokenizer1 = Tokenizer(lower=False)

lower = True时全部转成小写，因此要将lower设置为False

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tedist

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Keras 分词器 Tokenizer大小写问题

今天在使用 Keras 中的 Tokenizer 进行分词 one-hot的过程中发现了一个问题：在对特征进行向量化之后，查阅索引字典的时候发现有一些词的索引无法查看，错误提示：“KeyError”。例子：data = ["I am a student"]tokenizer1 = Tokenizer()tokenizer1.fit_on_texts(data)one_...
复制链接

扫一扫