Keras Tokenizer的使用

最新推荐文章于 2023-10-31 23:06:01 发布

夜如何其夜乡晨

最新推荐文章于 2023-10-31 23:06:01 发布

阅读量1.2k

点赞数

文章标签： python 自然语言处理列表 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/censorship/article/details/112361412

版权

Keras Tokenizer是一个方便的分词工具。

要使用Tokenizer首先需要引入

from keras.preprocessing.text import Tokenizer

Tokenizer.fit_on_texts(text)根据text创建一个词汇表。其顺序依照词汇在文本中出现的频率。在下例中，我们创建一个词汇表，并打印。出现频率高的即靠前，频率低的即靠后。

text1='To be or not to be'
tk = Tokenizer(num_words=None)
tk.fit_on_texts(text1)
print(  tk.word_docs)

out：

{
   'to': 1, 'be': 2, 'or': 3, 'not': 4}

也可以打印频率：

print( tk.word_counts)

out：

OrderedDict([('to', 2)

最低0.47元/天解锁文章

夜如何其夜乡晨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Keras Tokenizer的使用

Keras Tokenizer是一个方便的分词工具。要使用Tokenizer首先需要引入from keras.preprocessing.text import TokenizerTokenizer.fit_on_texts(text)根据text创建一个词汇表。其顺序依照词汇在文本中出现的频率。在下例中，我们创建一个词汇表，并打印。出现频率高的即靠前，频率低的即靠后。text1='To be or not to be'tk = Tokenizer(num_words=None)tk.fit_
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。