离群值:远离数据主要部分的样本(极大值或极小值)
处理方式:
-
删除:直接删除离群样本
-
填充样本:使用box-plot定义变量的数值上下界,以上界填充极大值,以下界填充最小值
# 查看房价的离群情况
df['average_price'].hist()
plt.show()
df[['average_price']].boxplot(
离群值:远离数据主要部分的样本(极大值或极小值)
处理方式:
删除:直接删除离群样本
填充样本:使用box-plot定义变量的数值上下界,以上界填充极大值,以下界填充最小值
# 查看房价的离群情况
df['average_price'].hist()
plt.show()
df[['average_price']].boxplot(