数据清洗常用函数说明

最新推荐文章于 2022-09-27 09:49:38 发布

Hour__

最新推荐文章于 2022-09-27 09:49:38 发布

阅读量515

点赞数

文章标签：数据分析 python

本文链接：https://blog.csdn.net/Hour__/article/details/118766174

版权

本文介绍了数据清洗的关键步骤，包括缺失值的观察与处理，如删除和填充；重复值的观察与删除；以及特征的观察与处理，如数值型特征的分箱和文本型特征的转换。示例中提到了pandas库在数据处理中的应用。

摘要由CSDN通过智能技术生成

文章目录

一、缺失值观察与处理
二、重复值观察与处理
- 1. 重复值的观察
- 2. 重复值的处理--删除
三、特征观察与处理

一、缺失值观察与处理

#加载所需的库
import numpy as np
import pandas as pd

#加载数据train.csv
df = pd.read_csv('train.csv')

1. 缺失值观察

df.info()  #按列读取数据的详细信息，包括列名、非空数和数据类型
df.isnull().sum() #按列返回缺失值的总数
df.isna().mean() #按列返回缺失值的比例
df[df.isna().any(1)] #返回至少有一个缺失值的行
					 #isna() 和 isnull()完全相同

2. 缺失值处理

（1）删除

 df.dropna(
        axis=0, #{0：'index', 1：'columns'}，默认为0，删除缺失值所在行

最低0.47元/天解锁文章

Hour__

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据清洗常用函数说明

文章目录一、缺失值观察与处理1. 缺失值观察2. 缺失值处理（1）删除（2）填充二、重复值观察与处理1. 重复值的观察2. 重复值的处理--删除三、特征观察与处理1. 特征观察2. 特征处理（1）数值型：“分箱”（2）文本型一、缺失值观察与处理#加载所需的库import numpy as npimport pandas as pd#加载数据train.csvdf = pd.read_csv('train.csv')1. 缺失值观察df.info() #按列读取数据的详细信息，包括列名
复制链接

扫一扫