1. 导入数据
import pandas as pd
data = pd.read_csv('titanic.csv')
2. 观察数据
print(data.isna().sum())
3. 处理缺失值
例如,填充Age列的缺失值
data['Age'].fillna(data['Age'].median(), inplace=True)
删除不需要的列
data_x = data.copy()
del data_x['Survived']
del data_x['Name']
4. 处理重复值
data = data.drop_duplicates()
5. 特征选择和处理
例如,将性别转换为数值类型
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})
例如,将Fare列根据分类节点分为两类
data['Fare_change'] = pd.qcut(data['Fare'], 2, labels=["low", "high"])
6. 特征工程
例如,创建一个新特征FamilySize
data['FamilySize'] = data['SibSp'] + data['Parch'] + 1
缺失值的填充方法、重复值的判断标准等需要根据实际情况进行调整