数据清洗

最新推荐文章于 2024-06-28 09:48:33 发布

??�??o

最新推荐文章于 2024-06-28 09:48:33 发布

阅读量133

点赞数

文章标签： python 数据分析

本文链接：https://blog.csdn.net/KuiGuniang/article/details/108420178

版权

数据清洗

缺失值处理

查看缺失值：主要看是哪个特征有多少个缺失值；

df.isnull().sum()

处理缺失值：填充or删除特征；

df.dropna()

df["Age"].dropna()
df.fillna(0)

重复值处理

重复值的查看；

df.duplicated()

重复值处理：删除；

df.drop_duplicates()

特征处理

数据分箱：对年龄这种连续性数据离散化：平均分为几个阶段、设定间隔分段、按照百分比分段；

df["AgeBand"]=pd.cut(df["Age"],5,labels=["1","2","3","4","5"])
df["AgeBand"]=pd.cut(df["Age"],[0,5,15,30,50,80],labels=["1","2","3","4","5"])
df["AgeBand"]=pd.qcut(df["Age"],[0,0.1,0.3,0.5,0.7,0.9],labels=["1","2","3","4","5"])

文本类型数据转化：对性别、船舱这种文本可分类的数据转换成数值类型；

#查看文本变量类型及数量
df["Sex"].value_counts()
#查看文本变量的类型
df["Sex"].unique()
#转换文本变量为数值变量
df["Sex"].replace(["male","female"],[1,2])
or
df["Sex"].map({"male":1,"female":2})

从特征里提取出特征：从姓名的特征中可以提取出来Mr ，Miss等信息

df["Title"]=df["name"].str.extract("[A-Za-z]+)\.",expand=False)

遗留问题：

缺失值一定会影响数据分析么？
为什么离散化的数据会对模型的鲁棒性有利？
使用sklearn来进行替换?
正则表达式

??�??o

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据清洗

数据清洗缺失值处理重复值处理特征处理遗留问题：缺失值处理查看缺失值：主要看是哪个特征有多少个缺失值；df.isnull().sum()处理缺失值：填充or删除特征；df.dropna()df["Age"].dropna()df.fillna(0)重复值处理重复值的查看；df.duplicated()重复值处理：删除；df.drop_duplicates()特征处理数据分箱：对年龄这种连续性数据离散化：平均分为几个阶段、设定间隔分段、按照百分比分段；
复制链接

扫一扫