使用最经典的泰坦尼克数据集如何快速清洗数据?今天番茄加速就来给大家演示一下。
首先导入包:
import numpy as np import pandas as pd import seaborn as snsimport matplotlib.pyplot as plt
导入数据
df = pd.read_csv(’./kaggle-data/titanic/train.csv’)
找到所有列的None值
df.isnull().sum()
PassengerId 0Survived 0Pclass 0Name 0Sex 0Age 177SibSp 0Parch 0Ticket 0Fare 0Cabin 687Embarked 2dtype: int64
Age列较多,使用平均值填充
df[‘Age’] = df[‘Age’].transform(lambda val: val.fillna(val.mean()))
sex列映射male为0,female为1
df[‘Sex’] = df[‘Sex’].map({‘male’: 0, ‘female’: 1})df = df.fillna(0)
接下来就是最关键的,使用corr方法,找出各个变量间的相关系数,并使用heatmap绘制相关性:
plt.figure(figsize=(8,6), dpi=150)sns.heatmap(data=df.corr(), cmap=‘coolwarm’, annot=True)
找出与survived列最相关的几个特征:
np.abs(df.corr()[‘Survived’]).sort_values().tail(6)
去掉相关不大的列,得到如下影响survived最大的特征 DataFrame:
X = df.drop([‘Survived’, ‘Cabin’, ‘Name’, ‘Embarked’, ‘Ticket’], axis=1)