Python数据清洗

最新推荐文章于 2024-09-04 17:02:10 发布

dltan

最新推荐文章于 2024-09-04 17:02:10 发布

阅读量1.2k

点赞数

分类专栏：笔记数据分析 Python

本文链接：https://blog.csdn.net/tandelin/article/details/94362634

版权

笔记同时被 3 个专栏收录

172 篇文章 15 订阅

订阅专栏

数据分析

81 篇文章 2 订阅

订阅专栏

Python

78 篇文章 9 订阅

订阅专栏

数据基本情况查看

from pandas import Series,DataFrame
from numpy import nan as NA
data = pd.read_csv('C://Users//TD//Desktop//hosptdata.csv')
print(data.dropna())
data.head(5)     #显示前5行数据
data.tail(5)     #显示后5行
data.columns    #查看列名
data.info()     #查看各字段的信息
data.shape      #查看数据集行列分布，几行几列
data.describe() #查看数据的大体情况
data['MSSubClass'].skew()  #列出数据的偏斜度
data['MSSubClass'].value_counts()   #统计某一列中各个元素值出现的次数  
data['LotFrontage'].corr(data['LotArea'])  # 计算2列相系数

#计算两个列的相关度

数据缺失值处理

1.使用可用特征的均值来填补缺失值；
2.使用特殊值来填补缺失值，如-1；
3.忽略有缺失值的样本；
4.使用相似样本的均值添补缺失值；
5.使用另外的机器学习算法预测缺失值。

（1）删除缺失值

from pandas import Series,DataFrame
from numpy import nan as NA
data = pd.read_csv('C://Users//TD//Desktop//hosptdata.csv')
print(data.dropna())

删除指定记录第1299条数数据

data= data.drop(data[data['Id'] == 1299].index)

（2）补充缺失值

将x1中的缺失值用0进行填充

from pandas import Series,DataFrame, np
from numpy import nan as NA
X1= data[['年龄']]   
X1.fillna(0)

均值填充缺失值

data.fillna(data.mean())

中位数填补

data['file2'] = data['file2'].fillna(data['file2'].median())

(3)异常值统计和识别

找出第3列中(file3)绝对值大小超过3项数

from pandas import Series,DataFrame, np
from numpy import nan as NA
data.describe()  ##查看数据的描述统计量
file3=data[3]
finddata <- col[np.abs(file3) > 12] 
print(finddata )

找出字段下的全部绝对值超过12的值的行

file3=col[(np.abs(file) > 12).any(1)] 
print(file3)

统计缺失值个数

file33=file3.isnull()
count=ffile33.count()

（4）删除重复数据处理

删除data中的重复数据

data.duplicated()

dltan

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录