Keras Tokenizer是一个方便的分词工具。
要使用Tokenizer首先需要引入
from keras.preprocessing.text import Tokenizer
Tokenizer.fit_on_texts(text)根据text创建一个词汇表。其顺序依照词汇在文本中出现的频率。在下例中,我们创建一个词汇表,并打印。出现频率高的即靠前,频率低的即靠后。
text1='To be or not to be'
tk = Tokenizer(num_words=None)
tk.fit_on_texts(text1)
print( tk.word_docs)
out:
{
'to': 1, 'be': 2, 'or': 3, 'not': 4}
也可以打印频率:
print( tk.word_counts)
out:
OrderedDict([('to', 2)