天池离线赛 - 移动推荐算法(一):题目与数据解析

本文深入解析阿里天池大赛的移动推荐算法赛题,介绍业务场景、数据内容、赛题目标和评价标准。通过对用户行为、商品信息的统计分析,为构建推荐模型奠定基础。
摘要由CSDN通过智能技术生成

移动推荐算法是阿里天池赛2015年赛题之一,题目以移动电商平台的真实用户-商品行为数据为基础来构建商品推荐模型。该题现已成为新人入门的经典演练对象,博主也希望基于该题场景,加深对机器学习相关知识的理解,积累实践经验。

题目回顾

关于题目和数据的介绍可访问天池官网中的:离线赛(移动推荐算法)-赛题与数据

业务场景

在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。定义如下的符号:

U——用户集合

I——商品全集

P——商品子集,P ⊆ I

D——用户对商品全集的行为数据集合

那么我们的目标是利用 D 来构造 U 中用户对 P 中商品的推荐模型。

数据内容

本场比赛提供20000用户的完整行为数据以及百万级的商品信息。竞赛数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据(D),表名为tianchi_fresh_comp_train_user,第二个部分是商品子集(P),表名为tianchi_fresh_comp_train_item,两个数据集所包含的字段如下:

D: tianchi_fresh_comp_train_user:

字段 字段说明 提取说明
user_id 用户标识 抽样&字段脱敏
item_id 商品标识 字段脱敏
behavior_type 用户对商品的行为类型 包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4
user_geohash 用户位置的空间标识,可以为空 由经纬度通过保密的算法生成
item_category 商品分类标识 字段脱敏
time 行为时间 精确到小时级别

P: tianchi_fresh_comp_train_item:

字段 字段说明 提取说明
item_id 商品标识 抽样&字段脱敏
item_ geohash 商品位置的空间标识,可以为空 由经纬度通过保密的算法生成
item_category
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值