机器学习之数值特征处理及数据探索

1. 分析数据是否有缺失值,是否有噪声。
2. 对不同类型的数值特征进行处理。
(1)对于类别型特征要进行独热编码。
注: 独热编码将一维类别特征改为K维类别特征,其中k为该类别特征的类别总数,只有其中为1,其余为0。
(2)对于数值特征,要将其去量纲化,即归一化数值范围,变为统一的单位。
3. 分析样本数据是否均衡。
对于不均衡的样本分布,要通过一些方法设法使其变得均衡化。
4. 处理特征数据中存在的缺失值。
如果缺失值是随机分布的,对最后的训练结果没有影响,则用中值取代。(具体实例可参见机器学习第二章所讲的内容)
数据分析:
4. 查看数据是否有大量缺失值。
5. 查看数据的规模。
6. 查看数据特征对应的取值范围以及分布。
7. 查看数据特征和标签值之间的关系。(具体实例可参见机器学习第二章所讲的内容)
注:

  1. 对同样的训练样本数据采用不同的特征处理方法,最终训练模型的分数差距很大。
    在这里插入图片描述如上图所示,原始数据最终的分数为0.6668,log特征编码的分数为0.6731,tfidf特征编码的分数为0.6331 原始特征+tfidf的分数为0.5981。
    所以,需要根据数据类型,采用不同的特征处理方式,最终得到的分数也会差异很大,特征处理是提升分数的一种有效手段。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值