电商数据分析
一、数据来源、分析目的和思路
- 数据来源
为了做商品、用户购物行为分析,从阿里云天池搜索获取数据集:
(https://tianchi.aliyun.com/datalab/dataSet.html?spm=5176.100073.0.0.30a36fc1OydpSl&dataId=649)
该数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(点击、购买、加购、喜欢),数据集信息如下:
表1 变量信息
编号 变量 说明 数量
1 userid 用户id 987,994
2 itemid 商品id 4,162,024
3 categoryid 商品类目id 9,439
4 type 行为类型:pv(商品详情页pv,等价于点击)、buy(商品购买)、cart(将商品加入购物车)、fav(收藏商品) 100,150,807
5 timestamp 时间戳 -
2. 分析目的
网站、商品、用户的购物行为分析。
二、 分析正文
- 数据清洗
因数据量太大,随机选取了3000个用户的行为日志进行分析。共有304920条行为数据,假定该数据为网站总数据。没有缺失值。为考察异常值,绘制变量5的箱线图如下。
图1 timestamp异常值分析
由图可知timestamp中有异常值,查询发现,数据集中含有129条时间小于11月25日的记录,和50条时间大于12月3日的记录,不符合要求,因此删除此179条记录,得到304741条