BAT机器学习特征工程工作经验总结(二)如何做数据清洗和预处理（附python代码）

最新推荐文章于 2024-03-31 20:51:56 发布

weixin_bread2008

最新推荐文章于 2024-03-31 20:51:56 发布

阅读量794

点赞数

分类专栏：机器学习工作经验总结文章标签：特征工程数据清洗数据预处理机器学习

本文链接：https://blog.csdn.net/weixin_42736194/article/details/83046959

版权

这篇是展示平时工作中如何做数据清理和预处理。

一般数据清理和预处理的流程是：

数据加载与粗略查看
处理丢失的数据
处理离群点
数据统计
特征值的合并、连接
数据转换、标准化、归一化
去除常变量

下面会拿热门的铁达尼号等数据做示范：

1.数据加载鱼粗略查看
在pandas读进来数据一个train后，train的格式为DataFrame，调用下面的几个方法就可以大致了解我们得到的数据是什么，有什么特征值，特征值的数据类型是什么，如果是数值那么最大最小值是什么等。

train.head(5)     #显示前5行数据
train.tail(5)     #显示后5行
train.columns    #查看列名
train.info()     #查看各字段的信息
train.shape      #查看数据集行列分布，几行几列
train.describe() #查看数据的大体情况

2.处理丢失数据（缺失值）

2.1 找到丢失的位置
输出每个列丢失值也即值为NaN的数据和，并从多到少排序。

total = train.isnull().sum().sort_values(ascending=False)
print(total)

Cabin          687
Age            177
Embarked         2
Fare             0
Ticket           0
Parch            0
SibSp            0
Sex              0
Name             0
Pclass           0
Survived         0
PassengerId      0

也可以输出百分比：

percent =(train.isnull().sum()/train.isnull().count()).sort_values(ascending=False)

missing_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])

missing_data.head(20)

在这里插入图片描述
由此可以看到‘Cabin’的缺失数量最多，‘Embarked’最少。

2.2 缺失值处理
对缺失数据的处理我们有很多方法：

使用可用特征的均值／中位值／众数来填补缺失值（这是从列角度去处理缺失值）；
使用特殊值来填补缺失值，如-1；
忽略有缺失值的样本（缺失的数目很多）；
使用相似样本的均值添补缺失值（这时从行角度去处理缺失值）；
使用另外的机器学习算法预测缺失值。

2.2.1 填补：

#使用出现次数最多的值填补
train['Embarked'] = train['Embarked'].fillna('S')

train.product_type[train.product_type.isnull()]=train.

最低0.47元/天解锁文章

weixin_bread2008

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
BAT机器学习特征工程工作经验总结(二)如何做数据清洗和预处理（附python代码）

这篇是展示平时工作中如何做数据清理和预处理。一般数据清理和预处理的流程是：数据加载与粗略查看处理丢失的数据处理离群点数据统计特征值的合并、连接数据转换、标准化、归一化去除常变量下面会拿热门的铁达尼号等数据做示范：1.数据加载鱼粗略查看在pandas读进来数据一个train后，train的格式为DataFrame，调用下面的几个方法就可以大致了解我们得到的数据是什么，有什...
复制链接

扫一扫

专栏目录