数据清洗及特征处理 —— 泰坦尼克任务

BuSong.

已于 2022-03-16 14:47:43 修改

阅读量3k

点赞数

分类专栏：动手数据分析文章标签： python 数据挖掘数据分析

于 2022-03-16 14:46:58 首次发布

本文链接：https://blog.csdn.net/m0_57726052/article/details/123501080

版权

第二章：数据清洗及特征处理

熟悉的开始~

# 导入numpy和pandas
import pandas as pd
import numpy as np

#加载数据train.csv
df = pd.read_csv('train.csv')
df

(1) 请查看每个特征缺失值个数

# 查看数据内缺失值字段
df.info()

# 查看每个特征缺失值个数
df.isnull().sum()

info(）用于打印DataFrame的简要摘要，显示有关DataFrame的信息，包括索引的数据类型dtype和列的数据类型dtype，非空值的数量和内存使用情况。

info(）方法最后输出的是每列不为空的数量。也就是说如果有某列数据的数量比实际的索引数量要少，说明该列存在缺少值。

注意info()和describe()的区别：
describe()函数用于生成描述性统计信息。描述性统计数据：数值类型的包括均值，标准差，最大值，最小值，分位数等；类别的包括个数，类别的数目，最高数量的类别及出现次数等；输出将根据提供的内容而有所不同。

(2) 请查看Age， Cabin， Embarked列的数据

# 查看Age， Cabin， Embarked列的数据 
df[['Age','Cabin','Embarked']] #  ['Age','Cabin','Embarked'] 作为索引标签

(1)处理缺失值一般有几种思路

(2) 请尝试对Age列的数据的缺失值进行处理

(3) 请尝试使用不同的方法直接对整张表的缺失值进行处理

处理缺失值的一般思路：

# 缺失值处理（方法一）
df[df['Age']==None]=0  # 空值部分未用“0”填充
# Age这一列的哪一行是空，就在Age那一列给它补上0
df

效果如下：

# 缺失值处理（方法二）
df = pd.read_csv('train.csv')
df[df['Age'].isnull()] = 0 # 可行操作  空值部分用“0”来填充
df

效果如下：
在这里插入图片描述

# 缺失值处理（方法三）
df = pd.read_csv('train.csv')
df[df['Age'] == np.nan] = 0  # 空值部分未用“0”填充
df

效果如下：
在这里插入图片描述

# 缺失值处理（方法四）
df = pd.read_csv('train.csv')
df[df['Age'

关注