pandas 控制检测与处理

本文详细介绍了如何利用Python的pandas库进行数据质量检测,包括缺失值检查、异常值识别和处理,以及数据类型转换等关键步骤,旨在帮助数据分析师提升数据预处理的效率和准确性。
摘要由CSDN通过智能技术生成
import pandas as pd
import numpy as np


# 缺失值检测
# 加载数据
# data = pd.read_excel('qs.xlsx')
# print(data)
# 利用isnull进行空值判断 -->返回bool df ,如果为True, 就是空值,如果为False,就是真实值
# print(data.isnull())
# 与sum连用,统计每一列空值个数
# print(data.isnull().sum())
# 利用notnull进行空值判断 -->返回bool df ,如果为True, 就是真实值,如果为False,就是空值
# print(data.notnull())
# 与sum连用,统计每一列真实值个数
# print(data.notnull().sum())

# 缺失值处理
# 删除法
# axis = 0 ,删除行
# any 只要行里面有空值,就删除整行
# inplace = True 替换原文本
# all 只有整行整列数据全为空值就删除
# data.dropna(axis=0,how='any',inplace=True)
# print(data)

# 删除法 --》存在NA就删除----》对数据影响较大(慎用)
# 如果某一行或者某一列数据存在大量的缺失值,这个时候就可以使用删除法删除


# 填充法
# 使用fillna进行填充,需要制定填充的内容,inplace是否覆盖原来数据
# 注意填充的数值型数据,可以使用均值,众数,中位数进行填充
# 类别型数据需要使用众数进行填充
# data['门店编号'].fillna('CDNL', inplace=True)
# print(data)

# 填充值必须为单个数值,不可以为序列,众数不唯一,取下标获取单个众数
# data['类别ID'
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值