本次教学赛是陈博士发起的数据分析系列赛事第2场 —— 保险反欺诈预测
赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。
金融数据分析比赛的目的是为了更好地带动数据科学初学者一起玩起来,因此我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及数据分析思路等内容。
数据加载 合并train, test
import pandas as pd
train = pd.read_csv('./train.csv')
train
test = pd.read_csv('./test.csv')
test
data = pd.concat([train, test], axis=0)
data
data.index = range(len(data))
data
数据探索
data.isnull().sum()
唯一值个数
for col in data.columns:
print(col, data[col].nunique())
cat_columns = data.select_dtypes(include='O').columns
c