pandas数据处理二:异常值检测和过滤&抽样
1. 异常值检测和过滤
使用describe()函数查看每一列的描述性统计量
ddd.describe()
上面的统计不包含字符串那两列
思路:
1. 确定异常的检测标准.
2. 写成条件的形式.使用条件去过滤原始数据
练习:
新建一个形状为10000*3的标准正态分布的DataFrame(np.random.randn),去除掉所有满足以下情况的行:其中任一元素绝对值大于3倍标准差
# randn:从标准正态分布中返回一个或多个样本值,这里是10000行
df = DataFrame(data=np.random.randn(10000, 3))
df.head()
<