python统计行号_如何使用python进行数据分析?

bf83d9834e63d6c0018b70d94da58cf0.png

使用python进行数据分析时,numpy和pandas这两个包对数据处理具有重要的意义,对于它们的基本用法我会单独写一篇文章。

这里以某药店2018年商品销售数据为例来学习python数据分析的基本过程。

数据分析基本步骤分为五部分:提出问题、理解数据、数据清洗、构建模型、数据可视化。关于这些的基本介绍在之间的文章中有写,感兴趣的可以点击下方链接~

一只小猴:利用Excel对数据进行探索性分析​zhuanlan.zhihu.com
1377ce440ad7a5610e64eb8f5d072358.png

一、提出问题

在与业务部门沟通后,通常会更加明确我们要分析的业务问题。本案例中从销售数据中主要分析月消费次数月消费金额客单价、消费趋势四大业务指标。

二、理解数据

b04202c76cb7f1f5d25532986118d4be.png

注意:使用网页版jupyter notebook读取桌面Excel文件时,刚开始我写的文件路径的代码如下:

filename = ('C:UsersAdministratorDesktopsales_data.xlsx')

这时程序会报错,报错内容为:(unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated UXXXXXXXX escap。原因:在Python中 是转义符,u表示其后是unicode编码,因此Users在这里会报错。解决办法:在字符串前面加个 r(rawstring 原生字符串),可以避免python与正则表达式语法的冲突,问题成功解决!

三、数据清洗

f7126b44b54b25ea005533579cbcc2da.png

636dc4f688971db41bf7c824a5551443.png

python中缺失值有3种:

① Python内置的None值;

② 在pandas中,将缺失值表示为NA,表示不可用not available;

③ 对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。

后面出来数据,如果遇到错误:说什么foloat错误,那就是有缺失值,需要处理掉。上图我们用的是dropna()函数将缺失值删除。

f3cc6030112177cccfa7b3eecc90318f.png

在最开始读取Excel中数据时,有如下一行代码,还记得吗?

sales = pd.read_excel(filename, sheet_name = 'Sheet1', dtype = str)

其中”dtype = str“意思是将所有数据都导入为字符串类型。但销售数量、应收金额和实收金额三列应该是浮点型,所以要进行数据类型转换操作。

a5ab066732c2edb621787c95e7e63f93.png

a912eda1c8b83df4a2598abae2770030.png

转换日期的过程中不符合日期格式的数值会被转换为空值None,因此这里要再删除一次销售时间和社保卡号列中的空行。

2fee07a52894aba10424ad5b381c0698.png

1fcd9b1b55791cd89e843fab2f0c2d27.png

因为排序后的索引值为之前的行号,所以需要修改为从0-N排序的索引值。

80f6856f0d21c3ceab27c8e64089ad07.png

数据基本完成清洗后,计算描述统计信息可以让我们从整体上来了解数据。上图结果可以看到销售数量、应收金额和实收金额的最小值均为负数,这说明是销售数量小于0所导致的。根据常识,这一现象不存在,所以选择删除此类异常值。

四、构建模型

根据最开始提出的业务问题的业务指标计算分析。

12a06f00867ebffd3ece981d8f3311ea.png

业务指标四:消费趋势,会用到pandas的高级功能及matplotlib,后续见分晓~


后续来啦!

点击下文,翻至第三部分项目详解,即可获取源数据、详细代码和分析报告哦~

一只小猴:一文入门Python数据可视化(附项目详解)​zhuanlan.zhihu.com
c1e516fee63c6690f04d1235e50862e3.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值