【深度学习 玩转keras】文本数据预处理

在深度学习运用在自然处理语言前,文本预处理是必不可少的步骤,一些常用的工具如句子句子分割,one-hot 编码,分词器都已经集成在keras预处理工具中,用户无需自己重新造轮子。下面我们将分别讲解这些功能。

1、分割句子获得单词序列。

from keras.preprocessing.text import Tokenizer,one_hot,text_to_word_sequence
import numpy as np

def test_text_to_word_sequence():
	sequence=text_to_word_sequence('the cat sat on the mat.the dog sat on the log,dogs and cats living together)
	print(sequence)

输出如下:

['the','cat',sat','on','the','mat','the','dog','sat','on','the','log','dogs','and','cats','living','together']

2、one-hot 序列编码器

keras.preprocessing.text.one_hot(text,n,filters=base_filter(),lower=True,split=" ")

参数n 表示字典长度

3、单词向量化

对于文本,在深度学习实际训练中,需要将所有的单词向量化,把每个单词进行编码后传送到深度网络的输入层,keras 提供了一个Tokenizer 类,用于向量化文本,或将文本转换为序列,即单词在字典中的下标构成的列表,从1算起的类。

keras.preprocessing.text.Tokennizer(num_words=None,filters=base_filter(),lower=True,split=" ",char_level=False)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东华果汁哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值