DataWhale 金融风控-贷款违约预测 Task2 数据分析

最新推荐文章于 2022-08-17 22:28:08 发布

等等党

最新推荐文章于 2022-08-17 22:28:08 发布

阅读量258

点赞数

分类专栏： DataWhale_17 文章标签： python

本文链接：https://blog.csdn.net/AlexDNG/article/details/108674707

版权

DataWhale_17 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Task2 数据分析

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings('ignore')

# 2.1 读取文件
data_train = pd.read_csv(r'...\train.csv')
data_test_a = pd.read_csv(r'...\testA.csv')

# 2.2 总体了解
# 将前三行与后三行拼起来
data_train.head(3).append(data_train.tail(3))

# 2.3 查看数据集中特征缺失值，唯一值等
# 多少列有缺失值
print(f"There are {data_train.isnull().any().sum()} columns in train dataset with missing values.")

# 查看缺失特征中缺失率大于50%的特征
have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
    if value > 0.5:
        fea_null_moreThanHalf[key] = value

# 可视化
missing = data_train.isnull().sum()/len(data_train)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()

# 查看训练集测试集中特征属性只有一值的特征
one_value_fea = [col for col in data_train.columns if data_train[col].nunique() <= 1]
one_value_fea_test = [col for col in data_test_a.columns if data_test_a[col].nunique() <= 1]

# 2.4 查看特征的数值类型有哪些，对象类型有哪些
numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))

# 划分数值型变量中的连续变量和分类变量
# 过滤数值型类别特征
def get_numerical_serial_fea(data,feas):
	numerical_serial_fea = []
	numerical_noserial_fea = []
	for fea in feas:
		temp = data[fea].nunique()
		if temp <= 10:
			numerical_noserial_fea.append(fea)
			continue
		numerical_serial_fea.append(fea)
	return numerical_serial_fea,numerical_noserial_fea

numerical_serial_fea,numerical_noserial_fea = get_numerical_serial_fea(data_train,numerical_fea)

# 1) 数值类别型变量分析
data_train['term'].value_counts() #离散型变量
data_train['homeOwnership'].value_counts()#离散型变量
data_train['verificationStatus'].value_counts()#离散型变量
data_train['initialListStatus'].value_counts()#离散型变量
data_train['applicationType'].value_counts()#离散型变量
data_train['policyCode'].value_counts()#离散型变量，无用，全部一个值
data_train['n11'].value_counts()#离散型变量，相差悬殊，用不用再分析
ata_train['n12'].value_counts()#离散型变量，相差悬殊，用不用再分析

# 2) 数值连续型变量分析
#每个数字特征得分布可视化
f = pd.melt(data_train, value_vars=numerical_serial_fea)
g = sns.FacetGrid(f, col="variable", col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.distplot, "value")

# 3) 非数值类别型变量分析
data_train['grade'].value_counts()
data_train['subGrade'].value_counts()
data_train['employmentLength'].value_counts()
data_train['issueDate'].value_counts()
data_train['earliesCreditLine'].value_counts()
data_train['isDefault'].value_counts()

等等党

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
DataWhale 金融风控-贷款违约预测 Task2 数据分析

Task2 数据分析import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport warningswarnings.filterwarnings('ignore')# 2.1 读取文件data_train = pd.read_csv(r'...\train.csv')data_test_a = pd.read_csv(r'...
复制链接

扫一扫