今天分析统计一下上海农商行白金卡权益用户航班理赔情况,简单的用Pandas去统计分析一下理赔客户人群
import pandas as pd
filepath = 'F:\\realflight\\scdb.csv'
pd.set_option('display.width', 300)
pd.set_option('display.max_columns', 50)
pd.set_option('display.max_rows', 50)
df = pd.read_csv(filepath, sep='\t', header=None)
df.columns = [
'姓名', '身份证号', '手机号', '信用卡号', '航班号',
'出发地码', '到达地码', '出发地', '到达地', '航司',
'预计出发', '预计到达', '实际出发', '实际到达', '延误时间',
'航班状态', '票号状态', '票号', '票价', '舱位'
]
print('原始数据农商行理赔数据集中:申请理赔次数:', len(df))
df = df[(df['身份证号'].notnull())]
print('有效分析数据 :' + str(len(df)) + '次')
df.航班状态.astype('category')
print('统计各个航班状态的个数') # 分析为何理赔,理赔原因
gp = df.groupby(by=['航班状态&