task_3

最新推荐文章于 2022-11-03 10:47:16 发布

无价攻城狮

最新推荐文章于 2022-11-03 10:47:16 发布

阅读量82

点赞数

分类专栏：笔记文章标签：数据挖掘

本文链接：https://blog.csdn.net/qq_45722145/article/details/115773827

版权

笔记专栏收录该内容

26 篇文章 0 订阅

订阅专栏

EDA–数据预处理探索分析

nan统计

Train_data.isnull().sum()

数据概览

Test_data.info()

Train_data.describe()

可视化缺失情况

# 可视化看下缺省值
msno.matrix(Train_data.sample(250))

msno.bar(Train_data.sample(1000))

了解数据分布并替换改变分布

Train_data['notRepairedDamage'].value_counts()
"""
0.0    111361
-       24324
1.0     14315
Name: notRepairedDamage, dtype: int64
"""
#可以看出来‘ - ’也为空缺值，因为很多模型对nan有直接的处理，这里我们先不做处理，先替换成nan

Train_data['notRepairedDamage'].replace('-', np.nan, inplace=True)

Train_data['notRepairedDamage'].value_counts()

"""
0.0    111361
1.0     14315
Name: notRepairedDamage, dtype: int64
"""

对预测值分布情况作概况预览并可视化

## 1) 总体分布概况（无界约翰逊分布等）
import scipy.stats as st
y = Train_data['price']
plt.figure(1); plt.title('Johnson SU')
sns.distplot(y, kde=False, fit=st.johnsonsu)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)