移动推荐算法是阿里天池赛2015年赛题之一,题目以移动电商平台的真实用户-商品行为数据为基础来构建商品推荐模型。该题现已成为新人入门的经典演练对象,博主也希望基于该题场景,加深对机器学习相关知识的理解,积累实践经验。
题目回顾
关于题目和数据的介绍可访问天池官网中的:离线赛(移动推荐算法)-赛题与数据
业务场景
在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。定义如下的符号:
U——用户集合
I——商品全集
P——商品子集,P ⊆ I
D——用户对商品全集的行为数据集合
那么我们的目标是利用 D 来构造 U 中用户对 P 中商品的推荐模型。
数据内容
本场比赛提供20000用户的完整行为数据以及百万级的商品信息。竞赛数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据(D),表名为
tianchi_fresh_comp_train_user
,第二个部分是商品子集(P),表名为tianchi_fresh_comp_train_item
,两个数据集所包含的字段如下:D: tianchi_fresh_comp_train_user:
字段 字段说明 提取说明 user_id 用户标识 抽样&字段脱敏 item_id 商品标识 字段脱敏 behavior_type 用户对商品的行为类型 包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4 user_geohash 用户位置的空间标识,可以为空 由经纬度通过保密的算法生成 item_category 商品分类标识 字段脱敏 time 行为时间 精确到小时级别 P: tianchi_fresh_comp_train_item:
字段 字段说明 提取说明 item_id 商品标识 抽样&字段脱敏 item_ geohash 商品位置的空间标识,可以为空 由经纬度通过保密的算法生成 item_category