python kaggle数据分析实战

一.数据来源: https://www.kaggle.com/carrie1/ecommerce-data
数据解释:该数据集是由 Machine Learning Repository 在基于一个英国电商公司从2010年月12月到2011年12月的真实的交易数据集进行改造的。 该电商主要销售的商品是各类礼品, 主要客户是各类经销商。数据集大小:541909行x8列数据集的特征:
InvoiceNo:订单号 C为退货订单
StockCode:商品编号
Description:商品名称/描述
Quantity:商品数量
InvoiceDate:订单日期
UnitPrice:商品单价
CustomerID:用户ID
Country:国家
二.研究目的:
1.购买商品数前10的国家
2.交易额前十的国家
3.哪个月份销量最佳
4.客单价多少
5.用户消费行为分析

三.数据处理
首先添加PYTHON中常用的数据分析库

import numpy as np 
import pandas as pd
import os 
import matplotlib.pyplot as plt
import plotly as py 
import plotly.graph_objs as go

设定默认路径,打开文档文件,观察数据。

os.chdir(r'C:\Users\Administrator\Desktop\jianli\python')  #修改路径
df = pd.read_csv('data.csv')  #读取文件
df.head()    #展示数据

在这里插入图片描述
接下来查看数据的整体情况:

df.info()  #查看数据有效值

在这里插入图片描述
其中可以看到 Description和CustomerID数据量与其他不同,存在缺失值。我们自定义函数,计算一下缺失率。

df.apply(lambda x : sum(x.isnull())/len(x))  #缺失率

在这里插入图片描述
其中CustomerID:用户ID数据缺失较多。另外查看一下退货数据存在多少


                
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值