python 数据分析实际案例_python数据分析练习-电商交易案例

最新推荐文章于 2021-08-03 13:42:45 发布

weixin_39828102

最新推荐文章于 2021-08-03 13:42:45 发布

阅读量288

点赞数

文章标签： python 数据分析实际案例

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39828102/article/details/111634073

版权

源代码以及所需资料都在里面的,欢迎交流~

链接：https://pan.baidu.com/s/175edfNAUGcJ7lBrAMt6QAg

提取码：ya51

#加载数据需要使用到的库

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

#加载数据,加载之前用文本编辑器看下数据的格式,首行是什么,分隔符是什么等

data = pd.read_csv(r'D:竺明网络学习资料数据分析学习课件5-python0831-0903pandas+numpy实战order_info_2016.csv',index_col='id')

data.head()

#加载好数据之后,第一部先分别使用describe和info方法看下数据的大概分布

data.describe()

data.info()

#首先要做一个数据的清洗

#order_id

#因为是订单id所以不可能会有一样的订单号

#先看下order_id有没有重复值

#注意:当我们对一列取size属性的时候,返回的是行数,如果对于dataframe使用size,返回的是行乘以列的结果,也就是总的元素数

data.orderId.unique().size

#对比上面我们不难看出原本数量是104557现在是104530,说明有重复

#但是目前先不处理重复列,最后再处理,因为其他的列可能会影响到删除哪条重复的济记录

#所以先处理其他的列

data.head()

#userId

#userId我们只要从上面的describe和info看下值在不在正常范围就可以了

#对于用户订单数据,一个用户有可能有多个订单,重复值是合理的

data.userId.unique().size

#有重复且合理

#productId

# productId最小值为0,这本身就有问题,我们可以先看下0有多少

data.productId[(data.productId == 0)].size

#共有177条记录,数量不多,可能是因为商品的上架下架引起的,处理完其他值的时候我们把这些删掉

#上述小结:遇到异常值先不要着急处理先查看完全部之后有了大局观后在做判断

最低0.47元/天解锁文章

weixin_39828102

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 数据分析实际案例_python数据分析练习-电商交易案例

源代码以及所需资料都在里面的,欢迎交流~链接：https://pan.baidu.com/s/175edfNAUGcJ7lBrAMt6QAg 提取码：ya51 #加载数据需要使用到的库import numpy as npimport pandas as pd import matplotlib.pyplot as plt#加载数据,加载之前用文本编辑器看下数据的格式,首行是什么,分隔符是什么等da...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。