泰坦尼克号数据清洗

 

1. 导入数据
import pandas as pd
data = pd.read_csv('titanic.csv')

2. 观察数据
print(data.isna().sum())

3. 处理缺失值
例如,填充Age列的缺失值
data['Age'].fillna(data['Age'].median(), inplace=True)
删除不需要的列
data_x = data.copy()
del data_x['Survived']
del data_x['Name']

4. 处理重复值
data = data.drop_duplicates()

5. 特征选择和处理
例如,将性别转换为数值类型
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})
例如,将Fare列根据分类节点分为两类
data['Fare_change'] = pd.qcut(data['Fare'], 2, labels=["low", "high"])

6. 特征工程
例如,创建一个新特征FamilySize
data['FamilySize'] = data['SibSp'] + data['Parch'] + 1

缺失值的填充方法、重复值的判断标准等需要根据实际情况进行调整

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值