一、分析背景
巴西Olist是当地电商平台,本数据集包含2016年9月-2018年8月的数据,本文将通过对平台的整体情况、用户、商家、产品、销售五个方面分析平台的经营状况,目的是为了发现平台可能存在的问题,分析可能的原因并给出建议。
数据链接:https://www.kaggle.com/jainaashish/orders-merged
数据字段说明:
1、product_id:商品ID
2、seller_id:商家ID
3、order_id:订单ID
4、customer_id:订单对应的用户ID。订单数据集的键,每个订单都有一个唯一的customer_id。
5、order_status:订单状态
6、order_purchase_timestamp:下单时间
7、order_approved_at:付款审批时间
8、order_delivered_carrier_date:订单过账日期
9、order_delivered_customer_date:客户实际订单交货日期
10、order_estimated_delivery_date:订单预计交货日期
11、customer_unique_id:用户ID
12、customer_zip_code_prefix:客户邮政编码前5位
13、customer_city:客户所在城市
14、customer_state:客户所在的州
15、review_id:评论ID
16、review_score:评价得分,客户在满意度调查中给出的注释范围为1到5。
17、review_comment_title:评论标题(葡萄牙语)
18、review_comment_message:评论内容(葡萄牙语)
19、review_creation_date:发出满意度调查日期
20、review_answer_timestamp:客户满意度回复日期
21、payment_sequential:付款顺序,客户可以使用多种付款方式付款。
22、payment_type:付款方式
23、payment_installments:客户选择的分期付款数量
24、payment_value:交易金额
25、order_item_id:序号,用于标识同一订单中包含的商品数量。
26、price:商品价格
27、freight_value:运费,物品运费价值物品(如果订单包含多个物品,则运费价值将在物品之间分配)
28、seller_zip_code_prefix:卖家邮政编码前5位
29、seller_city:卖家所在城市
30、seller_state:卖家所在州
31、product_category_name:类别名称
32、product_name_lenght:产品名称长度
33、product_description_lenght:产品说明长度
34、product_photos_qty:产品照片数量
35、product_weight_g:产品重量单位g
36、product_length_cm:产品长度单位cm
37、product_height_cm:产品高度单位cm
38、product_width_cm:产品宽度单位cm
二、分析框架
通过整体情况、用户、商家、产品、销售五个方面分析,使用工具为SQL和可视化工具FineBI。
三、分析及可视化
1、整体情况
1、总交易金额
select sum(payment_value) as 总交易金额 from orders_merged
2、总订单量
select count(order_id) as 总订单量 from orders_merged
3、用户数
select count(distinct customer_unique_id) as 用户数 from orders_merged
4、客单价
select sum(payment_value)/count(distinct customer_unique_id) as 客单价 from orders_merged
5、商家数
select count(distinct seller_id) as 商家数 from orders_merged
6、SpU
select count(distinct product_category_name) as SPU from orders_merged
7、SKU
select count(distinct product_id) as SPU from orders_merged
运行代码分别得到结果为总交易金额15,170,437.55元,用户数93,358位,客单价162.50元,总订单数96,478笔,,商家数2,959位,SPU74个,SKU31111个。
2、用户分析
CREATE view order_time AS
SELECT
order_id,
customer_unique_id,
year(order_purchase_timestamp) as y,
quarter(order_purchase_timestamp) as q,
month(order_purchase_timestamp) as m,
date(order_purchase_timestamp) as d,
hour(order_purchase_timestamp) as h
from orders_merged
为了方便后续分析,先转化日期格式,建立视图,方便后续分析。
2.1、用户流量分析
(1) 日活跃用户数
select
d 日期,
count(DISTINCT customer_unique_id) DAU
from order_time
group by d
order by d