前言
【天池】金融风控-贷款违约预测(赛题链接)。
上一篇赛题理解时已经对赛题背景、数据字段等进行了介绍。 本篇是数据分析部分,进一步了解数据,熟悉数据,为后续的特征工程做准备。一般的数据探索(EDA,Exploratory Data Analysis)目的如下:
1、EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模;
2、了解变量间的相互关系、变量与预测值之间的存在关系;
3、为特征工程做准备。
内容介绍
数据总体了解:
- 读取数据集并了解数据集大小,原始特征维度;
- 通过info熟悉数据类型;
- 粗略查看数据集中各特征基本统计量;
缺失值和唯一值:
- 查看数据缺失值情况;
- 查看唯一值特征情况。
深入数据-查看数据类型
- 类别型数据
- 数值型数据:
离散数值型数据
连续数值型数据
数据间相关关系
- 特征和特征之间关系
- 特征和目标变量之间关系
用pandas_profiling生成数据报告
代码示例
1. 导入数据分析及可视化过程需要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings('ignore')
注:以上库都是pip install 安装就好,如果本机有python2,python3两个python环境傻傻分不清哪个的话,可以pip3 install 。或者直接在notebook中’!pip3 install '安装。
2. 读取文件
data_train = pd.read_csv('./data/train.csv')
data_test_a = pd.read_csv('./data/testA.csv')
3. 总体了解
data_train.shape
data_test_a.shape
data_train.columns
通过info()来熟悉数据类型:
data_train.info()
总体粗略的查看数据集各个特征的一些基本统计量:
data_train.describe()
查看前三行和后三行数据:
data_train.head(3).append(data_train.tail(3))