实验介绍
企业做假账偷税漏税的行为普遍存在,汽车行业通过“多开发票”、“做双份报表”、“减少支出”等方式进行偷漏税。随着企业偷漏税现在泛滥,也影响国家经济基础。
实验目的
通过数据挖掘能自动识别企业偷漏税行为,提高稽查效率减少经济损失。汽车销售行业在税收上存在少开发票金额、少记收入,上牌、按揭、保险不入账,不及时确认保修索赔款等情况,导致政府损失大量税收。汽车销售企业的部分经营指标数据能在一定程度上评估企业的偷漏税倾向。样本数据提供了汽车销售行业纳税人的各种属性和是否偷漏税标识,提取纳税人经营特征可以建立偷漏税行为识别模型。
实验过程
在建立偷漏税识别模型前需要先整理流程(如下图),主要包含以下步骤:
-
从后台业务系统抽取企业经营指标静态数据,保证建模样本数据稳定性。
-
对样本数据进行探索性分析,查看指标分布情况。
-
对样本数据进行预处理,包括数据集清洗、缺失值处理和数据规则化。
-
选取特征建立样本集和测试集。
-
构建识别模型对样本数据进行模型训练,并对模型进行评价。
-
使用多种模型并挑选最优模型进行自动识别。