泰坦尼克号数据清洗

哥萨克011

于 2024-04-05 13:47:54 发布

阅读量581

点赞数 4

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73712644/article/details/137399159

版权

1. 导入数据
import pandas as pd
data = pd.read_csv('titanic.csv')

2. 观察数据
print(data.isna().sum())

3. 处理缺失值
例如，填充Age列的缺失值
data['Age'].fillna(data['Age'].median(), inplace=True)
删除不需要的列
data_x = data.copy()
del data_x['Survived']
del data_x['Name']

4. 处理重复值
data = data.drop_duplicates()

5. 特征选择和处理
例如，将性别转换为数值类型
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})
例如，将Fare列根据分类节点分为两类
data['Fare_change'] = pd.qcut(data['Fare'], 2, labels=["low", "high"])

6. 特征工程
例如，创建一个新特征FamilySize
data['FamilySize'] = data['SibSp'] + data['Parch'] + 1

缺失值的填充方法、重复值的判断标准等需要根据实际情况进行调整

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
泰坦尼克号数据清洗

缺失值的填充方法、重复值的判断标准等需要根据实际情况进行调整。例如，创建一个新特征FamilySize。例如，将Fare列根据分类节点分为两类。例如，填充Age列的缺失值。例如，将性别转换为数值类型。5. 特征选择和处理。
复制链接

扫一扫

哥萨克011 CSDN认证博客专家 CSDN认证企业博客

码龄2年

8: 原创

138万+: 周排名

15万+: 总排名

3188: 访问

: 等级

131: 积分

49: 粉丝

46: 获赞

9: 评论

52: 收藏

私信

关注

热门文章

最新评论

五子棋(游戏)
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
五子棋(游戏)
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
五子棋(游戏)
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
五子棋(游戏)
CSDN-Ada助手: 恭喜您发布了新的博客《五子棋(游戏)》，看到您一直坚持创作，非常值得鼓励！希望您可以继续分享更多有趣的游戏相关内容，或许可以尝试写一些游戏攻略或游戏心得体会，让读者们更深入了解游戏世界。期待您的下一篇作品！
绘制雷达图
CSDN-Ada助手: 恭喜您在博客中分享了如何绘制雷达图的教程，这对读者们学习数据可视化很有帮助。希望您能继续保持创作的热情，不断分享更多有趣的内容。或许下一步可以尝试介绍如何优化雷达图的设计，让图表更加美观和易于理解。期待您的下一篇文章！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。