第二章：第一节数据清洗及特征处理

最新推荐文章于 2023-05-18 16:46:26 发布

weixin_39384885

最新推荐文章于 2023-05-18 16:46:26 发布

阅读量179

点赞数

文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39384885/article/details/108136245

版权

数据清洗简述
我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本章我们将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的样子。

缺失值观察
df.info()
df.isnull().sum()
df[[‘Age’,‘Cabin’,‘Embarked’]].head(3)

对缺失值进行处理
df[df[‘Age’]==None]=0
df.head(3)
df[df[‘Age’].isnull()] = 0 # 还好
df.head(3)

重复值观察与处理
df.drop_duplicates().head()

对年龄进行分箱（离散化）处理
对文本变量进行转换

weixin_39384885

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第二章：第一节数据清洗及特征处理

数据清洗简述我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本章我们将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的样子。缺失值观察df.info()df.isnull().sum()df[[‘Age’,‘Cabin’,‘Embarked’]].head(3)对缺失值进行处理df[df[‘Age’]==None]=0df.head(3)df[df[‘A
复制链接

扫一扫

weixin_39384885 CSDN认证博客专家 CSDN认证企业博客

码龄7年

5: 原创

38万+: 周排名

164万+: 总排名

1059: 访问

: 等级

53: 积分

0: 粉丝

0: 获赞

0: 评论

1: 收藏

私信

关注

热门文章

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。