数据介绍
参考报告:https://bbs.fanruan.com/thread-139013-1-1.html
这里是给了一个淘宝用户的数据集,用来分析运营中出现的问题,对用户在购物中出现的行为进行分析,得出结果并给出优化建议。
先介绍一下数据每个字段的意义:
第一张表:tianchi_mobile_recommend_train_user
user_id:用户编号
item_id:商品编号
behavior_type:用户行为(1:浏览 2:收藏 3:加购物车 4:购买)
user_geohash:用户地理位置(无用)
item_category:商品类别
time:用户行为时间
第二张表:tianchi_mobile_recommend_train_item(基本没用到)
字段意义同上,地理位置也是一样没用的,后续删掉即可
数据清洗
导入部分就是一样的csv文件导入即可
然后这里我的数据跟参考报告的好像有点出入,我的数据比他多不少,并且在power query中也并没有发现空值和异常值,所以这里只要将两张表中的地理位置删除即可
这里将user表中的time列拆分成两列:日期和小时数分开,使用拆分列,按照空格拆分