电商数据处理分析

一.理解业务

原始文件有9个,分成3类:
客户相关:
UserInfo:用户主表
UserAddress:用户地址表
RegionInfo:区域表
商品相关:
GoodsInfo:商品主表
GoodsBrand:商品品牌表
GoodsColor:商品颜色表
GoodsSize:商品尺码表
订单相关:
OrderInfo:订单主表
OrderDetail:订单详情表
订单相关购买行为)为主维度,去关联客户相关*(卖给谁)和*商品相关卖了什么)。
OrderInfo主要关联客户维度表,OrderDetail关联商品维度表,而OrderInfo和OrderDetail之间用OrderID关联在一起。

ER关系图
在这里插入图片描述
二.数据收集

创建数据库和表,并导入CSV文件,以userinfo表为例:

创建数据库ds和表userinfo
在这里插入图片描述
导入数据:
在这里插入图片描述
检查导入数据的正确性:
1.查看导入的数据
在这里插入图片描述
2.查看导入的行数:
在这里插入图片描述
3.查看表结构
在这里插入图片描述
另外8张表以同样的方式创建、导入、检查正确性。

三.数据处理

以userinfo表为例:

regtime varchar(20) not null default '-',
lastlogin varchar(20) not null default '-',

regtime表示注册日期,lastlogin表示最后登录日期,二者体现用户活跃度。二者应该是日期格式,但导入时设置的是文本格式(varchar),因此需要修改。
在这里插入图片描述
步骤如下:
1.新建一个正确的日期型的字段

alter table userinfo add regtime_ datetime not null;
alter table userinfo add lastlogin_ datetime not null;

2.转换时间戳的值并赋值给新的字段

update userinfo set regtime_ = from_unixtime(regtime);
update userinfo set lastlogin_ = from_unixtime(lastlogin);

3.删除旧字段,只保留新字段

alter table userinfo drop column regtime;
alter table userinfo drop column lastlogin;

在这里插入图片描述
删除旧字段
另外8个表的字段处理同理。

四.数据分析

1.求出购买产品金额最多的前十名顾客

2.求出购买产品金额最多的前十名顾客的最后登录时间

3.求出购买产品金额最多的前十名顾客的所在城市

4.求出购买力最强的前十个城市

5.求出购买力最强的前十个城市以及他们所在的省份

6.求出最畅销的十个品牌

7.求出最畅销的十种颜色、以及最不畅销的十种颜色

8.求出最畅销的十个品牌中各个不同尺码的销售额

发布了21 篇原创文章 · 获赞 13 · 访问量 6437
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览