比赛地址:
https://tianchi.aliyun.com/competition/entrance/531830/introduction
比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。
赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
代码示例
#导入库
import matplotlib.pyplot as plt
from pathlib import Path
import numpy as np
import pandas as pd
import seaborn as sns
Path.cwd()
%matplotlib inline
%config InlineBackend.figure_format="retina"
%config IPCompleter.greedy=True
%config IPCompleter.use_jedi=True
pd.options.display.max_colwidth=100
plt.rcParams["figure.figsize"]=(12,8)
!dir ..\小组组队学习
train=pd.read_csv('train.csv',index_col=0)