在使用Python的数据分析中,Pandas,Numpy、Matplotlib是三个重要的包,本文将结合医院销售数据案例着重介绍Pandas的使用。
当我们拿到一份数据时,首先应该做到的就是明确自己要分析探究的问题是什么,将问题细化在数据指标上,通过适当计算得出相应可以反映问题的指标。数据分析主要分为提出问题-理解问题-数据清理-建立模型-数据可视化五大步骤。下文将逐步按照分析步骤对医院销售数据进行分析。
一 提出问题
拿到数据之后看到各项指标后,我们想要得到以下各指标:
1.月均消费次数
2.月均消费金额
3.客单件
二 理解问题
注:1.在导入pandas包时,由于在jupyter notebook我使用的是Python3环境,所以在导 入包之前在conda里进去Python3环境并且安装pandas包 和xlrd包
2.读取Excel文件时在文件名称前添加‘r’。
上文对数据条目和类型以及数据指标的战士,让我们对数据有了初步简单的了解
三 清理数据
1.数据重命名:
2.删除缺失值:
3.数据类型转换:
(1)字符串类型转换:
(2)日期格式转换
4.数据排序
5.异常值处理
对数据进行描述统计后发现销售数量有负值,所以判断有异常值,所以选择销售数量大于0 的数据
四 建立模型
以上即为数据分析的一个简单思路,关于数据可视化制作将在后期学习中展示。。。
学习结论:
1.对数据分析的一个脉络框架有了更加清晰的理解,拿到一份数据一定要看各项数据指标,明确研究分析目的,问自己几个问题,可以在这份数据得到,然后再开始动手分析。
2.分析过程中数据清理是重中之重,没有把数据清理完毕,后面的分析就有可能出现不符合实际的结论,所以对待数据清洗工作要十分谨慎。
3.敲代码,.敲代码,.敲代码,,重要的事情说三遍,由于个人工作原因,多数时间在听课书写笔记,自己书写了两三遍,等到在电脑上实际操作时,各种小问题就出来了,所以一定要在电脑上练习,练习,练习。