keras 处理文本,分类,数值数据,并添加进网络的步骤和方法

一,读取数据:

主要使用pandas 读取,以后考虑使用其他方法(libsvm等)

二,获取训练集和测试集:

这一步主要是划分数据集,drop()掉训练集里的预测那一列

三,处理缺失值:

可以使用fillna(value,inplace)来把缺失值补全

四:送入网络之前的处理:

1;分类信息的处理:

主要使用Keras的Tokenizer方法进行处理:1,使用Tokenizer类对训练集和测试集中的每一类进行词统计(方便embadding层),生成文档词典,以支持基于文档位序生成文本的向量表示。其中时间数据需要用pandas进行特别的处理,数值数据需要转化为数值类型。

2,连续型变量的处理:

如果不是数值型需要转化一下,如果数据的分布很广不便于处理可以使用np.log()进行处理,使其分布在一个较小区间内,对于其中的缺失值使用-1来填充。

3,文本特征:和分类特征不同的点在于文本信息要使用pad_sequences(maxlen)用0来补足。便于后续送入nlp网络

4,分别计算各种特征的长度

5,   划分训练和验证集:获取采样的索引,利用索引分别为分类数值(一块儿处理,如果分开处理需要单独分),文本信息划分训练集和测试集。

五,建立模型

六,训练

七,测试和可视化

八,调整参数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值