数据异常值检测和过滤

数据异常值检测和过滤

查看数据信息
info
head
describe

使用describe()函数查看每一列的描述性统计量
空值处理:isnull()判空 fillna()填充 dropna()删除
重复值处理:duplicated()查看重复行 drop_duplicates() 删除重复行
异常值处理:

  1. (整列数据像转换成标准的正态分布) 数值 > 3*std
  2. 离群点:Q1 Q3 IQR=Q3-Q1 UP_LEVEL=Q3+1.5IQR BOOTOM_LEVEL=Q1 -1.5IQR
  3. 结合业务场景进行异常值判定

使用std()函数可以求得DataFrame对象每一列的标准差。
获取异常数据的索引
根据每一列或行的标准差,对DataFrame元素进行过滤
借助any()或all()函数,测试是否有True,有一个或以上返回True,反之返回False
对每一列应用筛选条件,去除标准差太大的数据
删除特定索引df.drop(labels,inplace=True)

df.drop(labels=df
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
删除“盘点库存”0和空的数据的具体操作取决于你使用的是什么软件或工具进行数据处理。一般来说,可以使用筛选或过滤功能来快速找到“盘点库存”列中值为0或空的数据。然后可以选择删除这些行或将它们替换为其他值。以下是一些具体的操作步骤: 在 Excel 中,可以使用筛选功能来找到“盘点库存”列中值为0或空的数据,然后选择这些行并进行删除或替换。具体操作步骤如下: 1. 选中数据表格中的任意一个单元格。 2. 点击“数据”菜单栏中的“筛选”按钮。 3. 在“盘点库存”列的筛选下拉菜单中,选择“数字过滤”或“文本过滤”选项。 4. 根据需要选择“等于”、“不等于”、“大于”、“小于”、“包含”等条件,输入0或空格,然后点击“确定”按钮。 5. Excel 会筛选出符合条件的行,你可以选择这些行并进行删除或替换操作。 在 Python 中,可以使用 Pandas 库来进行数据处理。具体操作步骤如下: ```python import pandas as pd # 读取数据 df = pd.read_excel('data.xlsx') # 筛选出“盘点库存”列中值为0或空的数据 mask = (df['盘点库存'] == 0) | (df['盘点库存'].isna()) # 删除这些行 df = df[~mask] # 或者将这些行中的空值替换为其他值 df.loc[mask, '盘点库存'] = '未知' # 将处理后的数据保存到文件中 df.to_excel('data_processed.xlsx', index=False) ``` 以上是一些简单的操作示例,具体操作步骤可能因软件或工具而异。如果你有具体的软件或工具,可以尝试查看相关的帮助文档或在线教程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值