分享一个不错的数据分析实战案例【全程附图】EXCEL_数据分析实例(1)

写在最后

在结束之际,我想重申的是,学习并非如攀登险峻高峰,而是如滴水穿石般的持久累积。尤其当我们步入工作岗位之后,持之以恒的学习变得愈发不易,如同在茫茫大海中独自划舟,稍有松懈便可能被巨浪吞噬。然而,对于我们程序员而言,学习是生存之本,是我们在激烈市场竞争中立于不败之地的关键。一旦停止学习,我们便如同逆水行舟,不进则退,终将被时代的洪流所淘汰。因此,不断汲取新知识,不仅是对自己的提升,更是对自己的一份珍贵投资。让我们不断磨砺自己,与时代共同进步,书写属于我们的辉煌篇章。

需要完整版PDF学习资源私我

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以点击这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

项目简介

利用最近一次的营销活动的信息,分析什么对推销结果的影响最大,如何确定银行定期产品推销中最具价值的客户。

PS: 这是最初上传到UCI机器学习库的经典营销银行数据集,该数据集提供了有关金融机构营销活动的信息,但在本篇博客当中我们仅会用到EXCEL进行数据分析,使用机器学习进行分析我们留到之后再介绍。

1 数据理解

字段名理解
age年龄(数值)
job职业(分类:admin, bluecollar, entrepreneur, housemaid, management, retired, self-employed, services,student, technician, unemployed, unknown)
marital婚姻状况(分类:divorced, married, single, unknown)
education学历(分类:primary, secondary, tertiary and unknown)
default失信状况(分类:yes, no)
balance资产余额(数值)
housing房屋贷款(分类:yes, no, unknown)
loan个人贷款(分类:yes, no, unknown)
contact联系方式(分类:cellular, telephone)
day最后一次电话营销的日期(数值:月份中的哪一天)
month最后一次电话营销的月份(分类:jan, feb, mar, apr,…,nov, dev)
duration通话时长(数值:以秒为单位,0的话最终输出结果必然是0)
campaign联系次数(数值:此活动中联系该客户的次数)
pdays距上次联系完客户后的天数(数值:999代表未联系过该客户)
previous这次活动前与这位客户联系的次数(数值)
poutcome上次营销的结果(分类:yes, no, unknown)
deposit定期存款(分类:yes, no)客户是否已购买定期存款

2 数据清洗

此次数据除了部分未知数据(unknown),其它暂不需要清洗。

3 确定思路

首先这个balance,我不太确定具体指什么,目前推测应该是客户存放在银行的资金(负数应该代表欠了银行钱吧哈哈),总不可能是代表这个人的个人全部资产吧(银行得不到这方面的信息),所以暂时留着。

然后这个day和month,如果说有年份的话还能将其分为周一周二等,但是没有,数据集出处也没有明确标注是哪一年,所以如果用来分析的话可能也只能按月来分析,但按以往的经验和数据量的大小来看,应该用处不大。

至于duration的话,因为当duration为0时结果必然是失败的,说明这个数据的记录应该是银行人员在营销完记录下的,而现实中你无法在营销前就得到该数据,所以这个数据没有用。

那么接下来我们如何下手呢?
首先我们可以将数据分为两种类型:
1、客户的个人信息
2、营销人员与客户的联系信息
那么接下来我们可以按照这两种数据提出几个问题:
1、用户的个人信息是否对结果有着明显的影响(哪些属性影响大)?
2、营销人员的行为是否对结果有着明显的影响(哪些属性影响大)?

4 分析过程

4.1 年龄

此时我们探究年龄与结果是否有明显的影响。
首先我们可以查看以下数据集中的年龄统计分布情况:

在这里插入图片描述
可以发现共有11162名最小值为18,最大值为95,最小值为18。我们可以按照我们的认知,将客户分为几个不同年龄阶段。

在这里插入图片描述

分组的话主要是用到了VLOOKUP函数进行分组。
在这里插入图片描述
此时得到分组后,我们可以生成数据透视表来查看情况。

在这里插入图片描述
从图当中我们可以明显的看到在老年人群体中最终购买了定期存款的比例最大,为80.2%,而其他群体最终的结果并没有明显的差距。

4.2 失信状况default

在这里插入图片描述
有失信记录的在结果上没有什么差别,无失信记录的最终购买的比例低于没有购买的,但是数据量较小,不能作为参考。

4.3 个人资产balance

同年龄一样,balance是数值型,因而最好先将其分组。

在这里插入图片描述
这里我主要采用箱型图来查看balance数据的分布,以便后续进行分组。
可以看到的是数据主要是集中在0-2000之间,有少部分低于该区间,然后有部分大于该区间。

按下图进行分组:

在这里插入图片描述
结果如下:

在这里插入图片描述
这里主要可以发现的是负资产的客户最终购买的可能性较低,而资产较高的客户购买的可能性稍微大些。

4.4 housing&loan

接下来的房屋贷款和个人贷款,这个我打算放在一起进行分析。
具体如下:

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以点击这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 30
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
专利名称:一种基于新型AI芯片+BMC芯片架构的数据驱动故障诊断算法 专利申请人:(隐去) 技术领域:本专利涉及一种基于新型AI芯片+BMC芯片架构的数据驱动故障诊断算法,属于人工智能和计算机技术领域。 技术背景:随着计算机技术的不断发展,各种硬件设备的故障问题也越来越多。传统的硬件故障诊断方法需要大量的人力和物力,成本高、效率低。近年来,基于机器学习和深度学习的故障诊断方法得到了广泛的研究和应用,但是需要大量的计算资源和数据,因此需要高效的AI芯片和BMC芯片来支持。 发明内容:本发明提供了一种基于新型AI芯片+BMC芯片架构的数据驱动故障诊断算法。该专利的创新点在于,它能够在硬件层面上支持高效的数据驱动故障诊断算法,并解决了故障诊断算法所面临的数据安全性和隐私性问题。 具体实现方法如下: 1. 采集大量的机器数据,包括硬件状态、运行日志、性能指标等。 2. 利用AI芯片和BMC芯片进行数据处理和分析,运用机器学习和深度学习算法对数据进行建模和训练。 3. 利用BMC芯片上的区块链技术对数据进行加密和存储,确保数据的安全性和隐私性。 4. 利用AI芯片中的量子计算单元进行故障诊断算法的计算和优化,提高故障诊断算法的准确率和效率。 5. 利用BMC芯片进行远程监控和管理,实现对硬件的远程故障诊断和修复。 所述技术的优点在于: 1. 利用AI芯片和BMC芯片集成的设计,实现对硬件资源的更加高效的利用,从而提高故障诊断算法的计算效率。 2. AI芯片采用量子计算单元,能够实现更加高效的计算和优化算法,从而提高故障诊断算法的准确率。 3. BMC芯片采用区块链技术,能够保障数据的安全性和隐私性,从而提高故障诊断算法的可信度。 该技术的应用领域包括各种硬件设备的故障诊断和预防,具有广泛的市场前景。 附图说明: 图1:新型AI芯片+BMC芯片架构实现数据驱动故障诊断算法的原理框图。 图2:AI芯片和BMC芯片的集成设计示意图。 图3:BMC芯片采用区块链技术的示意图。 图4:利用AI芯片中的量子计算单元进行故障诊断算法的计算和优化的示意图。 以上说明仅为本专利实施例的说明,并不限制本专利的保护范围。任何在本专利保护范围内的技术方案和实施细节都应被视为本专利的保护范围。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值