机器学习之数据预处理

1.导入需要的库,Numpy,Pandas

2.导入数据集

3.处理丢失数据,数据可能是因为各种原因丢失,未了不降低机器学习模型的性能,需要处理数据,我们可以用整列的平均值,或中间值替换丢失的数据。我们用sklearn。preprocessing库中的Imputer类完成这项任务。

4.解析分类数据,分类数据是指含有标签值而不是数字值的变量,取值范围通常是固定的,例如yes,no不能用于模型的数值计算,所以需要解析成数字。为实现这一功能,我们可以用sklearn.preprocessing库中的LabelEncoder类。

5.拆分数据集为训练集和测试集,两者比例一般是8:2,我们用sklearn.crossvalidation库中的train_test_split()方法。

6.特征缩放,大部分算法使用两点间的欧式距离计算,但此特征在幅度,单位,和范围姿态问题上变化很大。在距离计算中,高幅度特征权重更大。可用特征标准化或Z值归一化解决,导入sklearn.preprocessing库中的Stan-dardScalar类。

转自:https://github.com/MLEveryday/100-Days-Of-ML-Code

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值