python数据分析实践_python数据分析基本过程实践

一、理论篇

数据分析的基本过程可以分为以下五个阶段:

1、提出问题

数据分析的目标是来解决工作和生活中的问题。比如店铺选址、投资项目是否启动、交通线路规划决策、药店每个月销售金额等。明确需要研究的问题是分析的第一步。

2、获取数据

根据研究的问题采集数据,从EXCEL或数据库中导入数据,甚至是利用爬虫从网上爬取数据。

3、数据清洗

数据清晰一般遵循以下六个步骤:选择子集、列名重命名、缺失数据处理、数据类型转换、数据排列、异常值处理。只要将数据清洗完后方可进行数据分析。

4、构建模型

对清洗后数据进行建模分析。数据分析的方法一般来讲包括三类:维度分析方法、统计学方法、机器学习的一些算法。

5、数据可视化并撰写报告

利用可视化技术,可以更简单直接的表达数据的含义,撰写写出高质量的报告。

二、案例实践

1、提出问题

从销售数据中计算出下列业务指标,包括月均消费次数、月均消费金额、客单价、消费趋势。

2、获取数据

从EXCEL文件中将数据读入PYTHON中,通过head()指令查看数据集情况,共有购药时间、社保卡号、商品编号、商品名称、销售数量、应收金额、实收金额七个字段,6578行记录。读入的数据类型都为字符串类型。

3、数据清洗

选择子集

选择子集其实也可以理解为拷贝一份数据文件,其中只筛选出需要的数据字段。

列名重命名

有时候有些字段名称需要重新自定义,可以采用rename函数

缺失数据 处理

缺失数据的处理,首先是要发现缺失数据,再来就是删除含有缺失数据的记录或者利用算法去补全缺失数据。下面为求方便,缺失数据处理主要是找到含有缺失数据的记录并删除。

数据类型转换

将导入的字符串数据转为数值型数据,同时将销售时间的数据格式由’日期+周期‘转为只有’日期‘的数据格式,并将原本为字符串格式的销售时间改为日期型格式。

数据排列

需要按销售时间进行排序,同时将数据框的索引值重新定义。

异常值处理

由于数据框的数据存在负数,与实际情况明显不符。

4、构建模型

指标一:月均消费次数=总消费次数/月分数,由于同一天同一个人发生的多笔消费算作一笔,需要去重数据。具体如下:

从上面可知总消费次数为5342笔

在计算出总消费次数后,就可以计算月份数和天数了。具体如下

所以,月均消费次数=5342/6=890次

指标二:月均消费金额=总消费金额/月份数

指标三:客单价=总消费金额/总消费次数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值