python 数据分析 实际案例-Python数据分析案例—用户识别

原标题:Python数据分析案例—用户识别

欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习、问答、求职,一站式搞定!

对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

673d2ae629be4f9593f2f1f4484ad759.jpg

传统的偷漏税分析是通过人工检测来进行的,对人的依赖性太大,为了提高偷漏税的判别效率,拟决定先根据商户的纳税数据进行初步的自动判断,对于判别为偷漏税的用户再进行人工检测。

本文从以下几个步骤讲解数据分析的流程:

1、数据集

2、数据探索与清洗

3、模型构建(CART决策树模型和神经网络模型)

4、模型训练与诊断

5、模型评估(混淆矩阵和ROC曲线)

一、数据集的获取

正如上文所说,我将要判别汽车行业纳税人是否存在偷漏税情况,那么哪些因素能够判别哪些指标的数据异常表明存在偷漏税的情况呢?通过识别哪些经营特征来判断偷漏税情况呢?

数据集中提供了汽车销售行业纳税人的各个属性与是否偷漏税标识。结合汽车销售行业纳税人的各个属性,总结衡量纳税人的经营特征,建立偷漏税行为识别模型,识别偷漏税纳税人。本文提供的数据集指标类型如下:

b9f24e56abf34f5e88762415f589b815.jpg

为了尽可能全面覆盖各种偷漏税方式,建模样本要包含不同纳税类别的 所有偷漏税用户及部分正常用户。偷漏税用户的偷漏税的关键数据指标。共计124条数据,各类销售指标数据,终端输出,输出正常表示纳税情况正常,异常表示存在偷漏税情况。

二、数据探索与清洗

当获得数据集后,按照惯例,需要对数据做一个探索性分析,即了解我的数据呈现什么分布情况。由于数据集不存在缺失值情况,所以不需要做缺失值处理。为了后面模型的训练和测试评估,对样本随机选取20%的作为测试样本,剩下80%的作为训练样本。

3393c649bfc842c998c8352b902b5362_th.jpg

三、模型构建、训练与诊断

这么多的影响因素,我们应该如何找到最大的影响因素?CART决策树模型可以通过一系列规则对数据进行分类。还可以为其他模型筛选变量。决策树找到的变量是对目标变量影响很大的变量。

CART决策树又称分类回归树,当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值;当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很好的解决分类问题。但需要注意的是,该算法是一个二叉树,即每一个非叶节点只能引伸出两个分支,所以当某个非叶节点是多水平(2个以上)的离散变量时,该变量就有可能被多次使用。

bd15966bbcc24965a548c2e7e7597fac.png

0100f532680f4dd6a0304e42ed6cdd45_th.jpg

经网络模型进行训练,并选取20%检验样本对模型的有效性进行预测检验。

c7e9cea2301546a48f48fc9f60309917_th.jpg

四、模型评估

得到混淆矩阵如下:

1cc4452c1c6949deb8329900d6fd1abc_th.jpg

得到ROC曲线如下:

fc8d8cf5d26f4249bbe985b67674c65d_th.jpg

因为训练集是随机选择,每次运行,对模型的识别效果影响也是有区别的,上图是几次运行中模型识别效果较普通的一次。

关于如何评价模型的好坏,请参见:

http://www.jianshu.com/p/41f434818ffc

关于决策树学习,推荐一个案例应用:

http://www.aichengxu.com/python/11270763.htm

素材下载:

链接:http://pan.baidu.com/s/1nv1B61j 密码:9zuu

转载请保留以下内容:

本文来源自天善社区吴小鹏老师的博客(公众号)。

原文链接: https://ask.hellobi.com/blog/wuxiaopeng/8318返回搜狐,查看更多

责任编辑:

表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
相关推荐
<p> <span style="color:#337FE5;font-size:16px;"><strong><br /> </strong></span> </p> <p> <span style="color:#337FE5;"><strong><span style="font-size:16px;">【数据可视化有什么意义?</span></strong><strong><span style="font-size:16px;">】</span></strong></span> </p> <p> <span style="color:#333333;font-size:14px;"><br /> </span> </p> <p> <span style="color:#333333;font-size:14px;"><br /> </span> </p> <p> <span style="color:#333333;font-size:14px;">举一个身边的例子,我们平时在电视上看到的天气预报,会用不同的色块代表不同地区的气温、降水情况。</span> </p> <p> <span style="color:#333333;font-size:14px;"><br /> </span> </p> <p> <span style="color:#333333;font-size:14px;">通过观察区域色块分布,我们可以马上了解哪里气温高,哪里雨水多。</span> </p> <p style="text-align:left;"> <span style="color:#333333;font-size:14px;"><br /> </span> </p> <p style="text-align:left;"> <span style="color:#333333;font-size:14px;">这种数形结合的形式,让我们更容易抓住重点信息,比枯燥的文字、简单表格更有吸引力。</span> </p> <p style="text-align:left;"> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><span style="color:#999999;"><span style="color:#333333;"><br /> <strong><span style="color:#E53333;">数据可视化,</span>就是让数据分析的结果以最直观的方式呈现,将“孤独”的数据联系起来,让“单调”的数据生动起来。通过观察可视化图表,数据之间的关联、变化一目了然。</strong><br /> </span></span></span></span> </p> <p style="text-align:left;"> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><span style="color:#999999;"><span style="color:#333333;"><strong><br /> </strong></span></span></span></span> </p> <p style="text-align:left;"> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><span style="color:#999999;"><span style="color:#333333;"><strong><br /> </strong></span></span></span></span> </p> <p style="text-align:left;"> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><span style="color:#999999;"><span style="color:#333333;"><strong><br /> </strong></span></span></span></span> </p> <p style="text-align:left;"> <span style="color:#337FE5;font-size:16px;"><strong>【“无处不在”的数据分析与可视化</strong></span><span style="color:#337FE5;font-size:16px;"><strong>】</strong></span> </p> <p style="text-align:left;"> <strong><span style="color:#337FE5;font-size:16px;"><br /> </span></strong> </p> <p style="text-align:left;"> <strong><span style="color:#337FE5;font-size:16px;"><img src="https://img-bss.csdnimg.cn/202012280549062058.png" alt="" /><br /> </span></strong> </p> <p style="text-align:left;"> <strong><span style="color:#337FE5;font-size:16px;"><br /> </span></strong> </p> <p style="text-align:left;"> <strong><span style="color:#337FE5;font-size:16px;"><br /> </span></strong> </p> <p style="text-align:left;"> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><span style="color:#999999;"><span style="color:#333333;">一图胜千言,数据分析与可视化如今在我们的工作和生活中处处可见,职场中90%以上的岗位都会跟数据打交道。掌握数据分析与可视化技能,可以极大提升工作效率。</span></span></span></span> </p> <p style="text-align:left;"> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><span style="color:#999999;"><span style="color:#333333;"><br /> </span></span></span></span> </p> <p style="text-align:left;"> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><span style="color:#999999;"><span style="color:#333333;"><br /> </span></span></span></span> </p> <p style="text-align:left;"> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><span style="color:#999999;"><span style="color:#333333;"><br /> </span></span></span></span> </p> <p style="text-align:left;"> <span style="color:#337FE5;"><span style="color:#333333;"><span style="color:#999999;"><span style="color:#333333;"><span style="color:#337FE5;font-size:16px;"><strong>【4.5小时极速提升数据能力</strong></span><br /> <span style="color:#337FE5;"><span style="font-size:16px;"><strong>数据小白也能轻松上手</strong></span><span style="color:#337FE5;font-size:16px;"><strong>】</strong></span></span><br /> </span></span></span></span> </p> <p style="text-align:left;"> <span style="color:#333333;font-size:14px;"><br /> </span> </p> <p style="text-align:left;"> <span style="color:#333333;font-size:14px;">Python数据分析与可视化的学习,重在实操,空谈语法毫无意义。</span> </p> <p style="text-align:left;"> <span style="color:#337FE5;"><span style="color:#333333;"><span style="color:#999999;"><span style="color:#333333;"><span style="font-size:14px;"><br /> </span><span style="font-size:14px;">本课程着重讲解数据分析与可视化工具的实操应用,结合实战案例,带你边学边练,重点知识充分理解。</span></span></span></span></span> </p> <p style="text-align:left;"> <span style="color:#337FE5;"><span style="color:#333333;"><span style="color:#999999;"><span style="color:#333333;"><span style="font-size:14px;"><br /> </span></span></span></span></span> </p> <p style="text-align:left;"> <span style="color:#337FE5;"><span style="color:#333333;"><span style="color:#999999;"><span style="color:#333333;"><span style="font-size:14px;"><img src="https://img-bss.csdnimg.cn/202012280551223313.png" alt="" /><br /> </span> </span></span></span></span> </p> <p> <span style="font-size:14px;"><br /> </span> </p> <p> <span style="font-size:14px;"><br /> </span> </p> <p> <span style="font-size:14px;"><br /> </span> </p> <p> <span style="font-size:14px;">四大案例结合实际场景,帮助你加深记忆,并且在日后的求职面试或毕业设计中,这些案例都可以复用。</span><span style="font-size:14px;"></span> </p> <p> <span style="font-size:14px;"><br /> </span> </p> <p> <br /> </p> <p style="text-align:left;"> <span style="color:#337FE5;"><span style="color:#333333;"><span style="color:#999999;"><span style="color:#333333;"><img src="https://img-bss.csdnimg.cn/202012280553194650.png" alt="" /><br /> </span></span></span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;"><span style="color:#333333;"><span style="color:#337FE5;font-size:16px;"><strong>【通解数据科学 拓宽收益渠道</strong></span><span style="color:#337FE5;font-size:16px;"><span style="color:#337FE5;font-size:16px;"><strong>】</strong></span></span><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;">如今,许多行业都有数据方向的人才需求。<br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><img src="https://img-bss.csdnimg.cn/202012280610023633.png" alt="" /><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;">掌握数据分析与可视化技能,你就可以:</span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><img src="https://img-bss.csdnimg.cn/202012280628195115.png" alt="" /><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;"><span style="color:#333333;"><span style="color:#337FE5;font-size:16px;"><strong>【适用人群</strong></span><span style="color:#337FE5;"></span><span style="color:#337FE5;font-size:16px;"><strong>】</strong></span><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><img src="https://img-bss.csdnimg.cn/202012280613049478.png" alt="" /><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;font-size:16px;"><span style="font-size:14px;color:#333333;"><br /> </span></span> </p> <p> <span style="color:#337FE5;"><span style="color:#333333;"><span style="color:#337FE5;font-size:16px;"><strong>【三重权益</strong></span><span style="color:#337FE5;"></span><span style="color:#337FE5;font-size:16px;"><strong>】</strong></span><br /> </span></span> </p> <p> <span style="color:#337FE5;"><span style="color:#333333;"><strong><span style="color:#337FE5;font-size:16px;"><br /> </span></strong></span></span> </p> <p> <span style="color:#337FE5;"><span style="color:#333333;"><strong><span style="color:#337FE5;font-size:16px;"><img src="https://img-bss.csdnimg.cn/202012280613568287.png" alt="" /><br /> </span></strong></span></span> </p>
<p> <span> </span> </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <span style="color:#E53333;">92讲视频课+16大项目实战+课件源</span><span style="color:#E53333;">码+讲师社群闭门分享会</span> </p> <p style="font-size:11pt;color:#494949;">   </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <strong class="ql-size-14 ql-author-32569780"><span style="color:#337FE5;font-size:14px;">为什么学习数据分析?</span></strong> </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <strong class="ql-size-14 ql-author-32569780"><span style="color:#337FE5;"><br /> </span></strong> </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;">       人工智能、大数据时代有什么技能是可以运用在各种行业的?数据分析就是。 </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <br /> </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;">       从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过数据分析进一步挖掘出数据价值,它和编程一样,本质上也是一个工具,通过数据来对现实事物进行分析和识别的能力。不管你从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力。 </p> <p style="font-size:11pt;color:#494949;">  <span style="font-size:11pt;"> </span> </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <span style="color:#337FE5;"><strong>本课程共包含五大模块:</strong></span> </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <strong class="ql-size-14 ql-author-32569780"><span style="color:#337FE5;"><br /> </span></strong> </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <strong class="ql-size-12 ql-author-32569780">一、先导篇:</strong> </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <span class="ql-author-32569780">通过分析数据分析师的一天,让学员了解全面了解成为一个数据分析师的所有必修功法,对数据分析师不在迷惑。</span> </p> <p style="font-size:11pt;color:#494949;">   </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <strong class="ql-size-12 ql-author-32569780">二、基础篇:</strong> </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> 围绕Python基础语法介绍、数据预处理、数据可视化以及数据分析与挖掘......这些核心技能模块展开,帮助你快速而全面的掌握和了解成为一个数据分析师的所有必修功法。 </p> <p style="font-size:11pt;color:#494949;">   </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <strong class="ql-size-12 ql-author-32569780">三、数据采集篇:</strong> </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <span class="ql-author-32569780">通过网络爬虫实战解决数据分析的必经之路:数据从何来的问题,讲解常见的爬虫套路并利用三大实战帮助学员扎实数据采集能力,避免没有数据可分析的尴尬。</span> </p> <p style="font-size:11pt;color:#494949;">   </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <strong class="ql-size-12 ql-author-32569780">四、分析工具篇:</strong> </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <span class="ql-author-32569780">讲解数据分析避不开的科学计算库Numpy、数据分析工具Pandas及常见可视化工具Matplotlib。</span> </p> <p style="font-size:11pt;color:#494949;">   </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <strong class="ql-size-12 ql-author-32569780">五、算法篇:</strong> </p> <p class="ql-long-32569780" style="font-size:11pt;color:#494949;"> <span class="ql-author-32569780">算法是数据分析的精华,课程精选10大算法,包括分类、聚类、预测3大类型,每个算法都从原理和案例两个角度学习,让你不仅能用起来,了解原理,还能知道为什么这么做。</span> </p> <p> <img alt="" src="https://img-bss.csdnimg.cn/202006110958102443.jpg" /> </p>
©️2020 CSDN 皮肤主题: 1024 设计师:白松林 返回首页