天池离线赛 - 移动推荐算法（一）：题目与数据解析

最新推荐文章于 2024-08-19 19:55:55 发布

Snoopy_Yuan

最新推荐文章于 2024-08-19 19:55:55 发布

阅读量1.7w

点赞数 13

分类专栏：数据挖掘天池赛文章标签：天池大数据竞赛移动推荐算法数据解析 python pandas

本文链接：https://blog.csdn.net/Snoopy_Yuan/article/details/72454636

版权

本文深入解析阿里天池大赛的移动推荐算法赛题，介绍业务场景、数据内容、赛题目标和评价标准。通过对用户行为、商品信息的统计分析，为构建推荐模型奠定基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

移动推荐算法是阿里天池赛2015年赛题之一，题目以移动电商平台的真实用户-商品行为数据为基础来构建商品推荐模型。该题现已成为新人入门的经典演练对象，博主也希望基于该题场景，加深对机器学习相关知识的理解，积累实践经验。

题目回顾

关于题目和数据的介绍可访问天池官网中的：离线赛（移动推荐算法）-赛题与数据

业务场景

在真实的业务场景下，我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中，我们不仅需要利用用户在这个商品子集上的行为数据，往往还需要利用更丰富的用户行为数据。定义如下的符号：

U——用户集合

I——商品全集

P——商品子集，P ⊆ I

D——用户对商品全集的行为数据集合

那么我们的目标是利用 D 来构造 U 中用户对 P 中商品的推荐模型。

数据内容

本场比赛提供20000用户的完整行为数据以及百万级的商品信息。竞赛数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据（D），表名为tianchi_fresh_comp_train_user，第二个部分是商品子集（P），表名为tianchi_fresh_comp_train_item，两个数据集所包含的字段如下：

D: tianchi_fresh_comp_train_user:

字段字段说明提取说明

user_id 用户标识抽样&字段脱敏

item_id 商品标识字段脱敏

behavior_type 用户对商品的行为类型包括浏览、收藏、加购物车、购买，对应取值分别是1、2、3、4

user_geohash 用户位置的空间标识，可以为空由经纬度通过保密的算法生成

item_category 商品分类标识字段脱敏

time 行为时间精确到小时级别

P: tianchi_fresh_comp_train_item:

字段字段说明提取说明

item_id 商品标识抽样&字段脱敏

item_ geohash 商品位置的空间标识，可以为空由经纬度通过保密的算法生成

item_category

字段	字段说明	提取说明
user_id	用户标识	抽样&字段脱敏
item_id	商品标识	字段脱敏
behavior_type	用户对商品的行为类型	包括浏览、收藏、加购物车、购买，对应取值分别是1、2、3、4
user_geohash	用户位置的空间标识，可以为空	由经纬度通过保密的算法生成
item_category	商品分类标识	字段脱敏
time	行为时间	精确到小时级别