1 汽车销售行业行为识别
背景
汽车销售行业在税收上存在少开发票金额、少记收入,上牌、按揭、保险不入账,不及时确认保修索赔款等情况,导致政府损失大量税收。汽车销售企业的部分经营指标数据能在一定程度上评估企业的偷漏税倾向。样本数据提供了汽车销售行业纳税人的各种属性和是否偷漏税标识,提取纳税人经营特征可以建立偷漏税行为识别模型,识别偷漏税纳税人。
分析方法的主要流程:
1.1 数据的提取
由于数据是现成的,所以免去了从后台抽取数据的过程,直接进行读取,代码如下:
# -*- coding: utf-8 -*- import pandas as pd data=pd.read_excel('work.xls',index_col=u'纳税人编号')
1.2 数据探索性分析
观察样本数据,可发现样本数据包含15个属性,分别为14个输入特征和1个输出特征,数据探索性分析可以尽早发现样本数据是否存在较大的差异以及对数据整体情况有基本的认识。代码如下:
#数据探索分析 import matplotlib.pyplot as plt import matplotlib as mpl fig,axes=plt.subplots(1,2)#创建画布
fig.set_size_inches(20,6