数据探索
文章目录
1. 查询
query
-
df.query(‘查询条件’)
df.query('col1 == 某个值') df.query('col1 == [值1,值2]')
2. 统计分析
2.1 描述统计
2.1.1均值、中位数描述
se.mean(axis=1) # 求行的均值
se.median()
plt.vlines(se.mean(),ymin=0,ymax=3,linewidth=5) # 绘制均值垂直线
plt.vlines(se.median()ymin=0,ymax=3,linewidth=3,color='red') # 绘制红色中位数线
2.1.2 分布描述
-
.describe()
df['col'].describe()
-
.quantile()
df['col'].quantile([0.5,0.75]) # 返回中位数和第三分位数
-
df['col'].var() # 方差 df['col'].std() # 标准差
2.1.3 MAD
-
MAD = median( |X_i - median(X)| )
-
abs_median_devs = abs<