背景
Datawhale与天池联合发起的0基础入门系列赛事第一场——零基础入门数据挖掘之二手车交易价格预测大赛。(赛事链接)
0.EDA简介
探索性数据分析(Exploratory Data Analysis,简称EDA),是一种分析数据集以概括其主要特征的方法,采用统计模型并通常使用可视化方法。
1.前期准备
- 数据集下载
- Anaconda、Python、Jupyter Notebook下载
- Python包安装(主要包括:pandas、Matplotlib、Seaborn等,另外,强烈推荐pandas_profiling)
2.主要工作
- 简单查看训练集和测试集:列名、行数
- 检查并处理:重复值、缺省值、异常值
- 可视化并分析:统计量、相关性、重要性、分布
部分实操
- 待后期整理完毕填坑