利用pandas检测和过滤异常值

最新推荐文章于 2024-06-12 21:48:28 发布

cbright63

最新推荐文章于 2024-06-12 21:48:28 发布

阅读量4.8k

点赞数 2

分类专栏：数据分析文章标签：数据分析检测和过滤异常值 Python Pandas

本文链接：https://blog.csdn.net/marioivy/article/details/96860620

版权

本文介绍了如何在数据清洗阶段利用Pandas库来检测和过滤异常值。通过一个具体的案例——分析学校成绩数据（涉及ABCD四个班级，每班100名学生），展示了使用Pandas进行异常值处理的步骤和方法。

摘要由CSDN通过智能技术生成

利用pandas检测和过滤异常值

在数据清洗过程中，我们经常需要对数据进行检测和过滤异常值。以下是用pandas实现的方法

案例分析：假设我们有某学校学生成绩的数据,学校有ABCD四个班，每个班100名学生，我们需要检测这些数据有没有异常

代码示例：

import numpy as np
import pandas as pd

# 这里我们先随机生成400名学生的成绩
data = pd.DataFrame(np.random.randint(0,101,size = 400).reshape((100,4)),columns = ['A','B','C','D'])

# 我们给这组数据人为传入一些异常值,这里需要注意的是等号右边随机生成的六个数必须用reshape变成二维数组才能存入data中
data.iloc[[0,11,33,55,66,77],[0,1,2,3]] = np.random.randint(101,1000,size = 24).reshape((6,4))

#假设我们现在想要找出A班所有异常值，即成绩不在（0,100]范围内的数据
error_A = data['A']

# 我们先筛选出成绩小于0或大于100的数据，这些便是异常值。这里需要注意的是，(100 < error_A) | (error_A < 0) 和 error_A[(100 < error_A) | (error_A < 0)]  是不同的，第一种会返回布尔值。
error_listA = error_A[(

最低0.47元/天解锁文章

cbright63

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
利用pandas检测和过滤异常值

利用pandas检测和过滤异常值在数据清洗过程中，我们经常需要对数据进行检测和过滤异常值。以下是用pandas实现的方法案例分析：假设我们有某学校学生成绩的数据,学校有ABCD四个班，每个班100名学生，我们需要检测这些数据有没有异常代码示例：import numpy as npimport pandas as pd# 这里我们先随机生成400名学生的成绩data = pd.Dat...
复制链接

扫一扫

专栏目录