keras Tokenizer 大小写踩坑

最新推荐文章于 2021-12-27 21:45:58 发布

Qzzzzm

最新推荐文章于 2021-12-27 21:45:58 发布

阅读量202

点赞数

分类专栏： ERROR处理合集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25408127/article/details/119606476

版权

ERROR处理合集专栏收录该内容

3 篇文章 0 订阅

订阅专栏

keras Tokenizer 踩坑

虽说Tokenizer类可以很方便的做一些文本处理工作。但刚开始使用时就掉坑里了

在获取一个Tokenizer类实例时，如果没有指定lower=False时，它默认是将语料中的所有大写字母变为小写字母的，这就导致以下悲催的情况。

word_docs 是defaultdict类型，即使找不到key值，也不会报错。

word_counts是OrderedDict类型，找不到key直接报错。

示例如下
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
keras Tokenizer 大小写踩坑

keras Tokenizer 踩坑虽说Tokenizer类可以很方便的做一些文本处理工作。但刚开始使用时就掉坑里了在获取一个Tokenizer类实例时，如果没有指定lower=False时，它默认是将语料中的所有大写字母变为小写字母的，这就导致以下悲催的情况。word_docs 是defaultdict类型，即使找不到key值，也不会报错。word_counts是OrderedDict类型，找不到key直接报错。示例如下...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。