一.数据集介绍
此次的数据集来自kaggle的关于在线零售业务的交易数据,该公司主要销售礼品,大部分出售对象是面向批发商。
二.数据集字段介绍
数据包含541910行,8个字段,字段内容为:
InvoiceNo: 订单编号,每笔交易有6个整数,退货订单编号开头有字母’C’。
StockCode: 产品编号,由5个整数组成。
Description: 产品描述。
Quantity: 产品数量,有负号的表示退货
InvoiceDate: 订单日期和时间。
UnitPrice: 单价(英镑),单位产品的价格。
CustomerID:客户编号,每个客户编号由5位数字组成。
Country: 国家的名称,每个客户所在国家/地区的名称。
三.分析内容
1.购买商品数前十的国家是?
2.交易额前十的国家是?
3.哪些月份销量较佳?
4.客单价多少?
5.用户消费行为分析
四. 数据处理分析过程
1.数据清洗
利用Python语言进行数据分析,开发工具有Jupyter Notebook。
导入库,查看数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('data.csv',encoding='ISO-8859-1')
df.head()

df.info()

本文使用Python对kaggle的在线零售业务数据进行分析,包括数据清洗、创建销售金额字段,探究购买商品数最多的国家、交易额最高的国家、销量较好的月份、客单价以及用户消费行为。结果显示英国是主要消费国,销量佳的月份集中在下半年,用户平均消费4次,平均消费金额为2053元,购买产品数量平均为1194件。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



