pandas数据处理二:异常值检测和过滤&抽样
1. 异常值检测和过滤
使用describe()函数查看每一列的描述性统计量

ddd.describe()

上面的统计不包含字符串那两列
思路:
1. 确定异常的检测标准.
2. 写成条件的形式.使用条件去过滤原始数据
练习:
新建一个形状为10000*3的标准正态分布的DataFrame(np.random.randn),去除掉所有满足以下情况的行:其中任一元素绝对值大于3倍标准差
# randn:从标准正态分布中返回一个或多个样本值,这里是10000行
df = DataFrame(data=np.random.randn(10000, 3))
df.head()

使用std()函数可以求得DataFrame对象每一列的标准差
df.std()

本文介绍了如何在Pandas中进行异常值检测和过滤,通过describe()函数获取描述性统计并设定异常值检测标准。同时,文章讲解了数据抽样的两种方式:无放回抽样与有放回抽样,利用permutation()和take()函数实现不同场景下的数据样本选取。
最低0.47元/天 解锁文章
4993

被折叠的 条评论
为什么被折叠?



