一.数据集介绍
此次的数据集来自kaggle的关于在线零售业务的交易数据,该公司主要销售礼品,大部分出售对象是面向批发商。
二.数据集字段介绍
数据包含541910行,8个字段,字段内容为:
InvoiceNo: 订单编号,每笔交易有6个整数,退货订单编号开头有字母’C’。
StockCode: 产品编号,由5个整数组成。
Description: 产品描述。
Quantity: 产品数量,有负号的表示退货
InvoiceDate: 订单日期和时间。
UnitPrice: 单价(英镑),单位产品的价格。
CustomerID:客户编号,每个客户编号由5位数字组成。
Country: 国家的名称,每个客户所在国家/地区的名称。
三.分析内容
1.购买商品数前十的国家是?
2.交易额前十的国家是?
3.哪些月份销量较佳?
4.客单价多少?
5.用户消费行为分析
四. 数据处理分析过程
1.数据清洗
利用Python语言进行数据分析,开发工具有Jupyter Notebook。
导入库,查看数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('data.csv',encoding='ISO-8859-1')
df.head()