一、背景目标
Shopee(虾皮网)是东南亚电商平台,覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西、墨西哥、哥伦比亚、智利等十余个市场,触达超10亿消费者!2023年Shopee总订单量达82亿,23年Q4总订单数同比增长46%!
分析数据样本来自某爬虫系统爬取的Shopee网从2023年4月至2023年5月期间特定产品的销售数据。
任务要求
任务要求:从数据中获取在2023年5月上市的产品。
使用问题1中的清理数据来执行下一个任务。
1、显示每天爬取的产品数量。
2、显示基于位置的上市产品数量。你可以从“规格”字段中提取这个信息。
- 如果它来自马来西亚的任何州,使用州名(如雪兰莪、柔佛、马六甲等)作为标签。
- 如果它来自马来西亚之外的地方,使用“海外”作为标签。
商品类别详情可能有如下格式:“Shopee | 女装 | 外套 | 大衣 & 夹克”。我们可以将其拆分为:
- 主要类别:女装
- 子类别 1:外套
- 子类别 2:大衣 & 夹克
a. 显示基于主要类别的上市产品数量。
b. 对于前3个主要类别,根据产品数量显示该主要类别下的前5个子类别 1
3、显示每个主要类别的价格范围。
4、按降序显示每个主要类别的收入。
二、数据探索分析
2.1 数据概况
-
数据时间范围: 2012年4月1日至2014年3月31日的数据
-
数据记录数:20312行
-
字段数:20个
-
数据属性说明(字段)
字段 | 含义 |
---|---|
price_ori
|
价格 |
delivery
|
交付送达 |
item_category_detail
|
项目类别详细信息 |
specification
|
规格 |
title
|
标题 |
w_date
|
日期 |
link_ori
|