数据挖掘报告——汽车销售行业行为识别

本文分析汽车销售行业的偷漏税问题,使用Python进行数据处理,包括独热特征编码、数据分离、数据转换。通过SVM和DecisionTree训练模型,评估其在识别偷漏税行为的准确性,结果显示决策树模型表现更优。
摘要由CSDN通过智能技术生成

项目背景

汽车销售行业在税收上存在少开发票金额、少记收入,上牌、按揭、保险不入账,不及时确认保修索赔款等情况,导致政府损失大量税收。汽车销售企业的部分经营指标数据能在一定程度上评估企业的偷漏税倾向。

需求分析

使用Python完成数据处理。样本数据4s.csv中提供了汽车销售行业纳税人的各种属性和是否偷漏税标识标签,通过样本数据挖掘纳税人的经营特征,进而建立偷漏税行为识别模型,识别偷漏税纳税人。

功能分析

使用pandas完成数据初步导入,将数据从不易处理的文本类型转换为int类型,同时分离训练集和结果集。完成后需要对高维数据降维,实现数据可视化,最后利用SVM模块和生成树算法训练模型,拟合训练集数据,最终测试训练后的准确度。
项目整体的逻辑流程如下图。
项目逻辑流程图

详细讲解

首先导入以下头文件,方便后续使用。

# -*- coding: utf-8 -*-
# 使用pandas完成数据的导入
import pandas as pd
# 归一化的data为numpy.array类型,此处调用为了调试方便
import numpy as np
# 使用svm, tree完成分类训练,使用preprocessing完成数据预处理
from sklearn import svm, preprocessing, tree
# 使用PCA进行数据降维,方便显示
from sklearn.decomposition import PCA
# 使用pyplot实现数据可视化
import matplotlib.pyplot as plt

为了方便后续输出调试,需要设置pandas显示的最大行列数,以及numpy的最大显示数量。

# 修改显示大小限制,方便调试
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
np.set_printoptions(threshold=np.inf)

1. 数据导入

样本数据已经提供,可以直接读取。

# 读入数据集,并将'纳税人编号'作为索引,其中u代表Unicode编码
data = pd.read_csv
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值