1.加载所需的库数据
import numpy as np
import pandas as pd
from scipy.stats import norm
from scipy import stats
import warnings
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm import tqdm
2. 读取数据集
train_data = pd.read_csv(r'C:\Users\Administrator\Desktop\lingjichurumen\used_car_train_20200313.csv', sep=' ')
test_data = pd.read_csv(r'C:\Users\Administrator\Desktop\lingjichurumen\used_car_testA_20200313.csv', sep=' ')
2.数据的探索性可视化分析
数据里面有的值大,有的值小,有的列还有缺失值等等,如何快速查看这些数据的分布呢?如何更加明了的以图像的方式呈现呢?在这里,你可以使用pandas_profiling模块工具一键生成探索性数据分析报告
ppf.ProfileReport(df_train) # 一键进行探索性可视化分析
为了后续可以同时对训练数据集和测试数据集进一步进行数据清洗和特征工程,这里先将训练集和测试集数据进行合并
train_data = pd.read_csv(r'C:\Users\Administrator\De