熊猫的python小课_Python入门-Pandas练习

在使用Python的数据分析中,Pandas,Numpy、Matplotlib是三个重要的包,本文将结合医院销售数据案例着重介绍Pandas的使用。

当我们拿到一份数据时,首先应该做到的就是明确自己要分析探究的问题是什么,将问题细化在数据指标上,通过适当计算得出相应可以反映问题的指标。数据分析主要分为提出问题-理解问题-数据清理-建立模型-数据可视化五大步骤。下文将逐步按照分析步骤对医院销售数据进行分析。

一 提出问题

拿到数据之后看到各项指标后,我们想要得到以下各指标:

1.月均消费次数

2.月均消费金额

3.客单件

二 理解问题

注:1.在导入pandas包时,由于在jupyter notebook我使用的是Python3环境,所以在导 入包之前在conda里进去Python3环境并且安装pandas包 和xlrd包

2.读取Excel文件时在文件名称前添加‘r’。

上文对数据条目和类型以及数据指标的战士,让我们对数据有了初步简单的了解

三 清理数据

1.数据重命名:

2.删除缺失值:

3.数据类型转换:

(1)字符串类型转换:

(2)日期格式转换

4.数据排序

5.异常值处理

对数据进行描述统计后发现销售数量有负值,所以判断有异常值,所以选择销售数量大于0 的数据

四 建立模型

以上即为数据分析的一个简单思路,关于数据可视化制作将在后期学习中展示。。。

学习结论:

1.对数据分析的一个脉络框架有了更加清晰的理解,拿到一份数据一定要看各项数据指标,明确研究分析目的,问自己几个问题,可以在这份数据得到,然后再开始动手分析。

2.分析过程中数据清理是重中之重,没有把数据清理完毕,后面的分析就有可能出现不符合实际的结论,所以对待数据清洗工作要十分谨慎。

3.敲代码,.敲代码,.敲代码,,重要的事情说三遍,由于个人工作原因,多数时间在听课书写笔记,自己书写了两三遍,等到在电脑上实际操作时,各种小问题就出来了,所以一定要在电脑上练习,练习,练习。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值