目录
这是阿里云天池大赛里面的项目,相关数据集可在阿里云学习赛【教学赛】金融数据分析赛题2:保险反欺诈预测中下载
前言:
这是阿里云天池大赛里面的项目,相关数据集可在阿里云学习赛【教学赛】金融数据分析赛题2:保险反欺诈预测中下载
一,赛题背景
以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。
二,导入库 加载数据
库只用到pandas 数据根据自己的路径修改
import pandas as pd
# 数据加载
train = pd.read_csv('./wen/train.csv')
test = pd.read_csv('./wen/test.csv')
三,合并
3.1 合并train, test
data = pd.concat([train, test], axis=0)
data.index = range(len(data))
## 数据探索
data.isnull().sum()
# 唯一值个数
for col in data.columns:
print(col, data[col].nunique())
#标题
cat_columns = data.select_dtypes(include='O').columns
3.2 处理
column_name = []
unique_value = []
for col in cat_columns:
#print(col, data[col].nunique())
column_name.append(col)
unique_value.append(data[col].nunique())
df = pd.D