Tokenizer
是一个用于向量化文本,或将文本转换为序列的类。是用来文本预处理的第一步:分词。
参数:
num_words
:默认是None
处理所有字词,但是如果设置成一个整数,那么最后返回的是最常见的、出现频率最高的num_words
个字词。
filters
:过滤一些特殊字符
lower
:全部转为小写
split
:字符串,单词的分隔符,如空格
类的方法:
属性:
word_counts:字典,将单词(字符串)映射为它们在训练期间出现的次数。仅在调用fit_on_texts之后设置。
word_docs: 字典,将单词(字符串)映射为它们在训练期间所出现的文档或文本的数量。仅在调用fit_on_texts之后设置。
word_index: 字典,将单词(字符串)映射为它们的排名或者索引。仅在调用fit_on_texts之后设置。
document_count: 整数。分词器被训练的文档(文本或者序列)数量。仅在调用fit_on_texts或fit_on_sequences之后设置。
例子:
from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer()
text = ["今天 北京 下 雨 了", "我 今天 加班"]
tokenizer.fit_on_texts(text)
tokenizer.word_counts