Keras 文本预处理

最新推荐文章于 2024-08-12 08:25:40 发布

林林同學

最新推荐文章于 2024-08-12 08:25:40 发布

阅读量2k

点赞数

分类专栏： keras

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37744293/article/details/75212470

版权

keras 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

句子分割 text_to_word_sequence

keras.preprocessing.text.text_to_word_sequence(text,
filters=base_filter(), lower=True, split=” “)
本函数将一个句子拆分成单词构成的列表
text：字符串，待处理的文本
filters：需要滤除的字符的列表或连接形成的字符串，例如标点符号。默认值为base_filter()，包含标点符号，制表符和换行符等
lower：布尔值，是否将序列设为小写形式
split：字符串，单词的分隔符，如空格

Ont-hot编码

keras.preprocessing.text.one_hot(text, n,
filters=base_filter(), lower=True, split=” “)
本函数将一段文本编码为one-hot形式的码，即仅记录词在词典中的下标。
【Tips】从定义上，当字典长为n时，每个单词应形成一个长为n的向量，其中仅有单词本身在字典中下标的位置为1，其余均为0，这称为one-hot。为了方便起见，函数在这里仅把“1”的位置，即字典中词的下标记录下来。

分词器Tokenizer

keras.preprocessing.text.Tokenizer(num_words=None, filters=base_filter(),lower=True, split=” “)
Tokenizer是一个用于向量化文本，或将文本转换为序列（即单词在字典中的下标构成的列表，从1算起）的类。
与text_to_word_sequence同名参数含义相同
nb_words：None或整数，处理的最大单词数量。若被设置为整数，则分词器将被限制为处理数据集中最常见的nb_words个单词

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。