一、分析背景
这是巴西Olist数据集,该数据集包含1个文件,将近10万行。
数据链接:
https://www.kaggle.com/jainaashish/orders-merged
分析该数据可以探究其销售情况,用户流量以及产品的分布,也可以对商户进行评分,多维度分析销售,找出商户影响销售的情况以及客户不满意的原因,以完善服务。
二、理解数据
相关数据说明:
1、product_id:商品ID
2、seller_id:商家ID
3、order_id:订单ID
4、order_purchase_timestamp:下单时间
5、customer_unique_id:用户ID
6、customer_state:客户所在的州
7、review_score:评价得分,客户在满意度调查中给出的注释范围为1到5
8、review_creation_date:发出满意度调查日期
9、payment_type:付款方式
10、payment_installments:客户选择的分期付款数量
11、payment_value:交易金额
12、order_item_id:序号,用于标识同一订单中包含的商品数量
13、seller_state:卖家所在州
14、product_category_name:类别名称
三、分析框架
对整体、用户、商户、产品、销售五个方面进行分析。分析工具为SQL,可视化工具为Tableau和PowerBI
四、数据分析
1、数据清洗
1.1 检查整体数据
-- 查看数据有多少
SELECT COUNT(*) FROM ecom
1.2 时间戳转换成具体日期
-- 日期格式转化
CREATE VIEW o_time AS
SELECT order_id,
customer_unique_id,
year(order_purchase_timestamp) AS y,
month(order_purchase_timestamp) AS m,
date(order_purchase_timestamp) AS d,
hour(order_purchase_timestamp) AS h
FROM ecom
1.3 整体情况分析
SELECT SUM(payment_value) AS 总交易金额,count(order_id) AS 总订单量,
SUM(payment_value)/count(DISTINCT customer_unique_id) AS 客单价,
count(DISTINCT customer_unique_id) AS 用户数,count(DISTINCT seller_id) AS 商家数,
count(DISTINCT product_category_name) AS SPU,count(DISTINCT product_id) AS SKU
FROM ecom;
代码运行结果:总交易金额15,170,437.55元,用户数93,358位,客单价162.50元,总订单数96,478笔,,商家数2,959位,SPU有74个,SKU有31111个
2、用户行为分析
2.1 用户流量
2.1.1 日活跃
SELECT d 日期,
count(DISTINCT customer_unique_id) DAU
FROM o_time
GROUP BY d
ORDER BY d