数据挖掘-基于随机森林模型的企业偷漏税纳税人识别

Tech行者

已于 2023-04-09 09:16:04 修改

阅读量1k

点赞数 4

文章标签：大数据数据挖掘

于 2022-11-04 20:36:16 首次发布

本文链接：https://blog.csdn.net/m0_62338174/article/details/127695766

版权

企业偷漏税纳税人识别

目前企业偷漏税现象泛滥，严重影响国家的经济基础。为了维护国家的权力与利益，应该加大对企业偷漏税行为的防范工作。如何用数据挖掘的思想，智能的识别企业偷漏税行为，有力的打击企业偷漏税的违法行为，维护国家的经济损失和社会秩序。

汽车销售行业，通常是指销售汽车整车的行业。汽车销售行业在税收上存在少开发票金额、少计收入，上牌、按揭、保险等一条龙服务未入帐反映，不及时确认保修索赔款等多种情况，导致政府损失大量税收。汽车销售企业的部分经营指标能一定程度上评估企业的偷漏税倾向，附件（（见：/拓展思考/拓展思考样本数据.xls））提供了汽车销售行业纳税人的各个属性和是否偷漏税标识，请结合汽车销售行业纳税人的各个属性，总结衡量纳税人的经营特征，建立偷漏税行为识别模型，识别偷漏税纳税人。

基于随机森林模型的企业偷漏税纳税人识别

本文根据已知数据，通过建立随机森林模型以此来识别偷漏税纳税人，这种模型比决策树模型降低了低异常值所带来的影响，以及针对本文数据中所给样本量的较少的情况下，降低了过拟合的可能性，因此提高了模型的准确性，更有利于对于数据的挖掘从而打击企业偷漏税的违法行为。

一、背景与挖掘目标

目前企业偷漏税现象泛滥，严重影响国家的经济基础。为了维护国家的权力与利益，应该加大对企业偷漏税行为的防范工作。如何利用数据挖掘的思想，智能的识别企业偷漏税行为，有力地打击企业偷漏税的违法行为，维护国家的经济损失和社会秩序。

汽车销售行业，通常是指销售汽车整车的行业。汽车销售行业在税收上存在少开发票金额、少计收入，上牌、按揭、保险等一条龙服务未入账反映，不及时确认保修索赔款等多种情况，导致政府损失大量税收。汽车销售企业的部分经营指标能一定程度上评估企业的偷漏税倾向，附件（（见：拓展思考/拓展思考样本数据.xls））提供了汽车销售行业纳税人的各个属性和是否偷漏税标识，请结合汽车销售行业纳税人的各个属性，总结衡量纳税人的经营特征，建立偷漏税行为识别模型，识别偷漏税纳税人。

二、数据分析方法与过程

偷漏税纳税人识别流程图如下图，主要包括以下步骤：

从汽车销售业务系统抽取纳税人销售类型、销售模式、汽车销售平均毛利、维修毛利等原始数据；
对样本数据探索分析，初步得到正常纳税人和偷漏税纳税人的经营特征；
对样本数据进行预处理，包括数据清洗、缺失值处理和数据变换；
根据经营特征构建样本集和测试集
构建多种偷漏税纳税人识别模型；
使用样本数据进行模拟训练，并对模型进行评价；

数据抽取

将原始数据导入spss中，进行数据分析。

表 1 数据集示意表

数据探索分析与预处理

利用交叉表对数据进行简单分析，可得到附件一的内容，选取汽车销售毛利以及销售模式做示例，进行数据可视化。可以得出一班一级代理商销售汽车中偷税行为占比较大，毛利在-1.065,0.003）偷税行为占比较大等信息。

图 2 汽车销售平均毛利图

图 3 销售模式图

在搭建模型之前需要前面样本数据中类别型特征需要进行转换成数值型特征，对销售类型和销售模式进行重编码处理，输出特征进行二值化处理。

由于原始数据中无缺失值，则不需要进行缺失值处理。

模型建立

先采用决策数进行简单分析，得到下图结果：

图 4 决策树结构图

但是经分析决策树由于数据样本量较小，导致过拟合，即使通过多次交叉验证，精确度也只有中等偏上。

故因此通过训练集数据来建立随机森林分类模型。通过建立的随机森林来计算特征重要性。将建立的随机森林分类模型应用到训练、测试数据，得到模型的分类评估结果。由于随机森林中具有随机性，每次运算的结果不一样，若保存本次训练模型，后续可以直接上传数据代入到本次训练模型进行计算分类。

采用随机森林分类模型建立而不是随机树建立的原因如下：

随机森林是以决策树为基学习器通过集成方式构建而成的有监督机器学习方法，进一步在决策树的训练过程引入了随机性，使其具备优良地抗过拟合以及抗噪能力. RF 分别从样本选取和特征选择 2 个角度体现其随机性。本题中数据量较小，故采用随机森林建立模型。

表 2 随机森林参数表

参数名	参数值
训练用时	1.079s
数据切分	0.7
数据洗牌	是
交叉验证	3
节点分裂评价准则	gini
决策树数量	100
有放回采样	true
袋外数据测试	false
划分时考虑的最大特征比例	auto
内部节点分裂的最小样本数	2
叶子节点的最小样本数	1
叶子节点中样本的最小权重	0
树的最大深度	10
叶子节点的最大数量	50
节点划分不纯度的阈值	0

利用spss得出特征（自变量）的重要性比例，如下图所示：

图 5 特征比例图条形统计图

六．模型预测结果

预测结果Y	输出	纳税人编号
正常	正常	2
正常	正常	3
正常	正常	7
异常	异常	8
正常	正常	10
正常	正常	11
正常	异常	21
异常	异常	25
异常	异常	26
异常	异常	27
正常	正常	31
正常	正常	37
正常	正常	38
正常	正常	42
正常	正常	54
正常	正常	61
正常	正常	62
正常	正常	64
异常	异常	65
异常	正常	67

七．模型评估结果如下：

下表中展示了训练集和测试集的分类评价指标，通过量化指标来衡量随机森林对训练、测试数据的分类效果。

● 准确率：预测正确样本占总样本的比例，准确率越大越好。

● 召回率：实际为正样本的结果中，预测为正样本的比例，召回率越大越好。

● 精确率：预测出来为正样本的结果中，实际为正样本的比例，精确率越大越好。

● F1：精确率和召回率的调和平均，精确率和召回率是互相影响的，虽然两者都高是一种期望的理想情况，然而实际中常常是精确率高、召回率就低，或者召回率低、但精确率高。若需要兼顾两者，那么就可以用F1指标。

● oob_score：对于分类问题，oob_score是袋外数据的准确率。若在建立树过程中选择有放回抽样时，大约1/3的记录没有被抽取。没有被抽取的自然形成一个对照数据集，可用于模型的验证。所以随机森林不需要另外预留部分数据做交叉验证，其本身的算法类似交叉验证，而且袋外误差是对预测误差的无偏估计（当算法参数选择了“袋外测试数据”后，才会通过oob_score来检验模型的泛化能力）。

表 3 模型评估检验表

	准确率	召回率	精确率	F1
训练集	1	1	1	1
交叉验证集	0.826	0.826	0.83	0.826
测试集	0.895	0.895	0.905	0.897

附录：

类别	名称	结构		总计
类别	名称	正常	异常	总计
汽车销售平均毛利	-1.065,0.003)	7	24	31
	0.003,0.025)	19	12	31
	0.025,0.049)	24	7	31
	[0.049,0.177]	21	10	31
维修毛利	-3.126,0.0)	0	4	4
	0.0,0.157)	17	41	58
	0.157,0.399)	27	4	31
	[0.399,1.0]	27	4	31
企业维修收入占销售收入比重	0.0,0.026)	15	47	62
	0.026,0.08)	28	3	31
	[0.08,1.0]	28	3	31
增值税税负	0.0,0.0)	10	21	31
	0.0,0.005)	19	12	31
	0.005,0.009)	20	10	30
	[0.009,0.077]	22	10	32
存货周转率	0.0,2.459)	9	22	31
	2.459,8.421)	19	12	31
	8.421,15.2)	27	4	31
成本费用利润率	-1.0,-0.004)	13	18	31
	-0.004,0.0)	13	17	30
	0.0,0.009)	24	8	32
	[0.009,9.827]	21	10	31
整体理论税负	-0.181,0.001)	9	22	31
	0.001,0.009)	18	12	30
	0.009,0.016)	26	6	32
	[0.016,0.159]	18	13	31
整体税负控制数	-0.007,0.0)	0	3	3
	0.0,0.006)	14	45	59
	0.006,0.011)	28	3	31
	[0.011,0.057]	29	2	31
办牌率	0.0,0.272)	53	40	93
办牌率	[0.272,0.878]	18	13	31
单台办牌手续费收入	0.0,0.02)	45	41	86
单台办牌手续费收入	[0.02,0.2]	26	12	38
代办保险率	0.0,0.138)	47	46	93
代办保险率	[0.138,1.53]	24	7	31
保费返还率	-0.015,0.0)	1	0	1
	0.0,0.081)	45	47	92
	[0.081,0.27]	25	6	31
销售类型	其他	6	4	10
	卡车及轻卡	3	4	7
	商用货车	2	3	5
	国产轿车	42	22	64
	大客车	2	11	13
	工程车	1	1	2
	微型面包车	3	3	6
	进口轿车	12	5	17
销售模式	4S店	56	20	76
	一级代理商	6	14	20
	二级及二级以下代理商	3	13	16
	其他	2	3	5
	多品牌经营店	4	3	7

@自己写的一次小作业。

Tech行者

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据挖掘-基于随机森林模型的企业偷漏税纳税人识别

本文根据已知数据，通过建立随机森林模型以此来识别偷漏税纳税人，这种模型比决策树模型降低了低异常值所带来的影响，以及针对本文数据中所给样本量的较少的情况下，降低了过拟合的可能性，因此提高了模型的准确性，更有利于对于数据的挖掘从而打击企业偷漏税的违法行为。
复制链接

扫一扫