使用python做数据分析_如何利用Python怎么进行数据分析

Python 数据分析包知识点

数据分析步骤:

1,提出问题

2,理解数据

3,数据清洗

4,构建模型

5,数据可视化

案例:销售数据分析(朝阳医院销售数据)

1,提出问题:

月均消费次数:月均消费次数=总消费次数 / 月份数

月均消费金额:月均消费金额 = 总消费金额 / 月份数

客单价:客单价=总消费金额 / 总消费次数

客单价(per customer transaction)是指商场(超市)每一个顾客平均购买商品的金额,客单价也即是平均交易金额。

消费趋势,画图:折线图(分组计算和数据可视化课程中验证)

2,理解数据:

1,读取excl数据

(1)路径中最好不要有中文,或者特殊符号啥的,不然路径会提示错误找不到。

最好将文件放到一个简单的英文路径下

(2)使用pandas的read_excel函数读取Ecxcel数据

参数sheet_name:数据在Excel里的哪个sheet下面,这块就写该sheet在excel里的名称

参数dtype=str: 统一先按照字符串读入,之后再转换

2,查看数据信息

3,数据清洗

1,选择子集(本案例不需要子集)

2,列表重命名

3,缺失值处理

python缺失值有3种:

1)Python内置的None值

2)在pandas中,将缺失值表示为NA,表示不可用not available。

3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。

后面出来数据,如果遇到错误:说什么foloat错误,那就是有缺失值,需要处理掉

所以,缺失值有3种:None,NA,NaN

在删除前有数据6578条,删除后,数据还有6575条,说明有3条数据缺失销售时间或者社保卡号

4,数据类型转换

字符串转换为数值(浮点型)

字符转转换为日期数据类型

5,数据排序

ascending=True 表示升序排列,

ascending=True表示降序排列

排序后重新命名行名,使用reset_index,可以将行号修改成从0到N的顺序排列,其中drop=True选项会丢弃原来的索引而设置新的从0开始的索引

6,异常值处理

通过describe方法获取所有这些列的描述信息,排除金额数量为0的负数,经过筛选将那些异常值删除

4,构建模型

1,月均消费次数:月均消费次数=总消费次数 / 月份数,

2,月均消费金额:月均消费金额 = 总消费金额 / 月份数

3,客单价:客单价=总消费金额 / 总消费次数

4,消费趋势,画图:折线图

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值