tensorflow, keras, Tokenizer 获取文本信息, NLP
Tokenizer是keras.preprocessing.text包下的一个类,调用路径为:
tensorflow.keras.preprocessing.text.Tokenizer.
tensorflow和keras就以其数不清的包而著称,也为其诟病。Tokenizer是在数据预处理的时候常用的一个类,其作用是:
在处理文本时候向量化整个文本库。
接触过机器学习文本处理的都应该了解,计算机是无法记得每个词汇长什么样子,它处理的方法是把每个词汇转换成数字格式,具体操作包括:one-hot,.
原创
2020-07-08 22:51:17 ·
794 阅读 ·
0 评论