熊猫的python小课_Python入门-Pandas练习

最新推荐文章于 2024-04-15 13:45:08 发布

weixin_39548733

最新推荐文章于 2024-04-15 13:45:08 发布

阅读量103

点赞数

文章标签：熊猫的python小课

在使用Python的数据分析中，Pandas，Numpy、Matplotlib是三个重要的包，本文将结合医院销售数据案例着重介绍Pandas的使用。

当我们拿到一份数据时，首先应该做到的就是明确自己要分析探究的问题是什么，将问题细化在数据指标上，通过适当计算得出相应可以反映问题的指标。数据分析主要分为提出问题-理解问题-数据清理-建立模型-数据可视化五大步骤。下文将逐步按照分析步骤对医院销售数据进行分析。

一提出问题

拿到数据之后看到各项指标后，我们想要得到以下各指标：

1.月均消费次数

2.月均消费金额

3.客单件

二理解问题

注：1.在导入pandas包时，由于在jupyter notebook我使用的是Python3环境，所以在导入包之前在conda里进去Python3环境并且安装pandas包和xlrd包

2.读取Excel文件时在文件名称前添加‘r’。

上文对数据条目和类型以及数据指标的战士，让我们对数据有了初步简单的了解

三清理数据

1.数据重命名：

2.删除缺失值：

3.数据类型转换：

（1）字符串类型转换：

（2）日期格式转换

4.数据排序

5.异常值处理

对数据进行描述统计后发现销售数量有负值，所以判断有异常值，所以选择销售数量大于0 的数据

四建立模型

以上即为数据分析的一个简单思路，关于数据可视化制作将在后期学习中展示。。。

学习结论：

1.对数据分析的一个脉络框架有了更加清晰的理解，拿到一份数据一定要看各项数据指标，明确研究分析目的，问自己几个问题，可以在这份数据得到，然后再开始动手分析。

2.分析过程中数据清理是重中之重，没有把数据清理完毕，后面的分析就有可能出现不符合实际的结论，所以对待数据清洗工作要十分谨慎。

3.敲代码，.敲代码，.敲代码，，重要的事情说三遍，由于个人工作原因，多数时间在听课书写笔记，自己书写了两三遍，等到在电脑上实际操作时，各种小问题就出来了，所以一定要在电脑上练习，练习，练习。

weixin_39548733

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
熊猫的python小课_Python入门-Pandas练习

在使用Python的数据分析中，Pandas，Numpy、Matplotlib是三个重要的包，本文将结合医院销售数据案例着重介绍Pandas的使用。当我们拿到一份数据时，首先应该做到的就是明确自己要分析探究的问题是什么，将问题细化在数据指标上，通过适当计算得出相应可以反映问题的指标。数据分析主要分为提出问题-理解问题-数据清理-建立模型-数据可视化五大步骤。下文将逐步按照分析步骤对医院销售数据进行...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。