阿里巴巴大数据竞赛(2014年3月10日到11月)

最新推荐文章于 2024-07-28 22:30:04 发布

52ML

最新推荐文章于 2024-07-28 22:30:04 发布

阅读量5.4k

点赞数

文章标签：大数据机器学习阿里巴巴

大赛简介

阿里巴巴大数据竞赛是阿里巴巴集团主办，在阿里巴巴大数据科研平台——“天池”上开展的，基于天猫海量真实用户的访问数据的推荐算法大赛。
本次比赛的目的是让广大的高校同学在大数据时代的背景下，有机会学习和利用阿里巴巴的大数据和云计算平台，尝试解决真实的业务与社会问题。
整个比赛分为三季（season）：
Season 1：2014年3月10日至4月20日，参赛者可以下载少量天猫的真实行为数据，并在本地调试算法，提交结果。
Season 2：2014年4月25日至7月30日，参赛者须使用“天池”平台（阿里巴巴自主研发的分布式计算平台），访问海量的天猫数据，并利用MapReduce、SQL及各种平台集成的机器学习算法包调试模型、提交结果。
Season 3（即线上赛，实战双11）：2014年10月至11月，Season 2的top选手可以访问天猫，参与2014年双11的真实算法设计，并有机会获取百万大奖。

报名规则

参赛对象

全日制高校（研究院所）本科、硕士、博士均可参赛

组队规则

参赛队伍可以是单人组队，或者自由组合，但是最多不超过三人（可以跨学院跨学校）。如果是多人团队，则需指定一名队长，负责沟通事宜。另外每个队伍可以配备指导老师一名。

注：
1.  每人只能参加一支队伍；
2.  保证参赛队员报名信息准确有效,否则会被取消参赛资格及激励；
3.  进入season2后，不允许变更队伍成员；
4.  报名时间：只要在4月20日0:00（season1截止）之前报名即可。鼓励大家早点报名，可以早点接触到数据，以确保参赛时间充足；
5.  报名方式：官网注册账号后报名即可；
6.  交流论坛：http://bbs.aliyun.com/thread/187.html?type=738

赛制安排

环节	时间	规则
Season 1	3月10日—4月20日	利用可下载的少量天猫数据，建模与提交结果。每天提供1次算法提交机会(提交截止时间为每天凌晨2点)，隔天公布排行榜，按照F1分从高到低排序； 4.20日选出第一赛季最好成绩排名在前500名的队伍进入第二赛季；
Season 2	4月25日-7月30日	参赛者需登录阿里巴巴天池平台，访问海量天猫数据。利用天池平台的集成工具与算法，建模与提交结果。评审规则：每天提供1次算法提交机会，每天更新排行榜，按照F1分从高到低排序。(排行榜将选择选手在本阶段的历史最优成绩进行排名展示，选手每日的成绩请至个人中心查询) 7.24将重新抽样一批相同量级的数据(保证抽样方式一致),7.30零点截止算法的提交，并取7.24-7.30最优成绩前Top10的参赛队进入最终评审。 Top10的参赛队，需要准备评审材料，在8月20日来杭州参加答辩，根据参赛队的算法原理、season2的成绩，决出最终的冠亚季军。
Season 3	10-11月 (线上赛)	邀请决赛成绩TOP3的参赛队参与天猫线上算法的设计，并在双11当天检验效果，根据线上AB Test 结果，决定最终成绩，赢取100w大奖。整个过程将由媒体全程跟踪和监督。

奖项设置：

Season 1 不设奖项，但是会从参赛队伍中选择较优者进入Season 2阶段比赛
Season 2 阶段奖项：

一等奖：1支队伍，奖金贰拾万
二等奖：1支队伍，奖金伍万
三等奖：1支队伍，奖金贰万
（上述奖项以决赛答辩成绩的最终名次决定）

月星星奖：每期月度榜单排名Top10的参赛队成员都将获得搭载云OS的手机一部（具体手机型号在公布榜单时公布）
优胜奖：决赛全国赛排名Top50的参赛队成员直接进入阿里巴巴校园招聘绿色通道(即招聘流程省略简历筛选及笔试筛选阶段，直接进入面试阶段) ,在校期间均有效;并将获得阿里纪念T恤和大赛获奖证书
总决赛Top10的主要参赛队成员可直接入围“阿里星”计划,参赛队的指导老师（如有）将享受天池数据的最高使用权限1年

Season 3 线上阶段奖项：

Season 2 阶段的优胜者，将会受邀访问天猫，在天猫实际开发2014年双11线上算法，并有机会赢取100万大奖（组委会将在Season 2结束后公布细则）

主办方

阿里巴巴集团

合作方

中国中文信息学会、InfoQ技术媒体、SF社区

赛题介绍

本赛题适用于season1 和season 2的比赛，season 3 为线上赛（season 2 赛后公布题目）。
在天猫，每天都会有数千万的用户通过品牌发现自己喜欢的商品，品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志，建立用户的品牌偏好，并预测他们在将来一个月内对品牌下商品的购买行为。

我们会开放如下数据类型：

字段	字段说明	提取说明
user_id	用户标记	抽样&字段加密
Time	行为时间	精度到天级别&隐藏年份
action_type	用户对品牌的行为类型	包括点击、购买、加入购物车、收藏4种行为 (点击：0 购买：1 收藏：2 购物车：3）
brand_id	品牌数字ID	抽样&字段加密

用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样，且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。

评估指标

我们希望参赛队的预测, 预测的品牌准确率越高越好，也希望覆盖的用户和品牌越多越好，所以用最常用的准确率与召回率作为排行榜的指标。

准确率：
注：
N 为参赛队预测的用户数
pBrandsi为对用户i 预测他(她)会购买的品牌列表个数
hitBrandsi对用户i预测的品牌列表与用户i真实购买的品牌交集的个数

召回率：
注：
M 为实际产生成交的用户数量
bBrandsi为用户i 真实购买的品牌个数
hitBrandsi预测的品牌列表与用户i真实购买的品牌交集的个数

最后我们用F1-Score 来拟合准确率与召回率，并且大赛最终的比赛成绩排名以F1得分为准。

不同赛季使用数据说明

Season 1赛季数据

1)  数据获取格式：
参赛者通过大赛官网报名成功后，可以直接下载数据到本地，直接使用。（下载地址在参赛者的个人中心）
2)  数据说明：
提供的原始文件有大约4M左右，涉及1千左右天猫用户，几千个天猫品牌，总共10万多条的行为记录。用户4种行为类型(Type)对应代码分别为：
点击：0；购买：1；收藏：2；购物车：3
3)  提交评分方式：
参赛者将预测的用户存入文本文件中，格式如下：
user_id \t brand_id , brand_id , brand_id \n
上传的结果文件名字不限(20字以内)，文件必须为txt格式。

如图：

将预测结果文件上传至大赛官网结果提交入口即可。（提交结果入口在参赛者的个人中心）

Season 2赛季数据

1) 数据获取方式：
参赛者只能登陆阿里巴巴天池集群获取数据，且数据不能下载，所有数据分析，计算，提交评分都将在天池集群上完成。登陆天池集群方法，请留
意后续的指导文档和邮件通知。
2) 数据说明：
提供的数据量，涉及千万级天猫用户，万级天猫品牌，时间跨度4个月的行为记录。
提供的训练数据在天池集群的表t_alibaba_bigdata_user_brand_tota_1中，字段分别为：user_id，brand_id, type, visit_datetime。如图所示

用户4种行为类型(Type)对应代码分别为：
点击：0；购买：1；收藏：2；购物车：3
3) 提交评分方式：
参赛者完成用户品牌偏好预测后，需要将结果放入指定格式的数据表（非分区表）中，要求结果表名为：t_tmall_add_user_brand_predict_dh，
包含user_id和brand两列。其中brand字段为预测的偏好品牌ID，多个品牌之间用逗号(",")分隔。
例如：

FAQ

友情提醒：获取更多信息请进入大赛论坛区,内部赛选手会不定时放送攻略哦~~~
论坛地址： http://bbs.aliyun.com/thread/187.html?type=738

1. 报名时需要的云账号如何申请？

报名参赛时需要填写阿里云账号信息。如果账号填写错误，将无法参加第二季竞赛。获取阿里云账号的方式如下所示(截图及注册流程以阿里云官网为准，以下介绍仅供参考)：

进入阿里云网站http://www.aliyun.com/，点击右上角注册：

填写电子邮箱、设置密码、填写手机号、点击获取短信验证码并填写，点击同意协议并注册：

点击注册后会看到如下确认界面：

点击立即查收邮件，进入您的邮箱，查看邮件，会收到类似下面的邮件：

点击邮件中的链接，完成注册：

备注：海外同学有单独的阿里云账号注册通道，详细说明见链接：http://bbs.aliyun.com/read/154337.html?spm=5176.383345.0.0.OcSzSa

2. 大赛数据抽样方式？

本次大赛的数据直接采用随机抽样的方式，抽取了天猫网站线上的一部分真实数据，抽样后数据未经过任何人为处理，所以数据包括了网站上所有真实情况(促销、活动、刷信用等等)。用户对所有商品的行为，都映射为用户对商品所对应的品牌行为。数据分别对用户和品牌做了部分抽样，所以提供的数据为一部分用户和一部分的品牌。

3. 品牌数据如何抽取的？

所有品牌数据均来自于商品信息，但不包括书籍类目和充值等没有品牌的类目数据，只针对包含正常品牌信息的商品。

4. 4种用户行为的类型有什么区别？

点击：点击行为是用户在网站上对商品的一次浏览点击行为。

购物车：用户对商品的加入购物车行为，购物车本身有容量限制(50个商品)，用户可以在购物车中直接购买商品，或者删除购物车中商品。数据中没有提供用户删除购物车内商品的行为。

收藏：用户对商品的加入收藏夹行为，收藏夹本身没有容量限制，用户可以在收藏夹中直接购买商品，或者删除收藏夹中商品。数据中没有提供用户删除收藏夹内商品的行为。

购买：用户对商品的一次正常网购行为，数据中没有提供用户退款、退货等交易纠纷行为。

5. user和brand字段的ID是否为网站真实ID？

用户ID和品牌ID均已经脱敏，与网站真实ID不同，系统已保障了数据安全性。

6. 用户行为数据是否为阿里巴巴所有相关网站数据？

所有数据只包括用户在天猫网站上的行为数据，不包括用户在淘宝网、聚划算、淘点点等网站的行为等数据。

7. 第一赛季和第二赛季数据区别？

第一赛季数据只开放了10万量级的数据供用户下载，第一赛季数据为第二赛季数据的子集。

开放给参赛者的数据是用户4月15到8月15一共4个月的数据。

8. 系统每天在什么时间点运行评分？

a、第一赛季，系统每天凌晨2点运行一次评分，评分结果在大赛官网上可以查询。

b、第二赛季，系统每天凌晨4点运行一次评分，所以提交结果必须在凌晨4点前完成，否则不会产出评分结果。

9. 评分运行后以哪个成绩为准?

a、第一赛季，用户可以多次提交结果，但系统只会评分每天凌晨2点前最后一次提交的结果，多次提交的结果会被最后一次结果覆盖。每天的结果都会记录。

b、第二赛季，用户每天也可以提交多次结果，但系统只会评分每天凌晨4点前最后一次提交的结果，多次提交的结果会被最后一次结果覆盖。每天的结果都会记录。

10. 比赛多次结果评分，排名成绩如何排名？

最终比赛成绩会以用户最优的F1得分进入总排行榜，所以参赛者可以多次提交尝试不同算法，不用担心测试过程中的结果影响最终成绩。

11. 第二赛季的数据是否可以开放下载？

第二赛季数据涉及阿里数据安全问题，所有参赛者不能下载到本地。

12. 第二赛季使用的云计算平台都有哪些功能？

第二赛季使用的云计算平台是阿里巴巴自主研发的分布式离线数据处理平台(ODPS, 即Open Data Processing Service)，支持海量结构化数据的离线存储和计算，可以提供数据仓库的解决方案以及针对大数据的分析建模服务。

ODPS提供了多种数据处理操作，以及完善的安全解决方案，其包括的功能有:

计算服务:

SQL：用户可以通过客户端编写一段SQL，ODPS会自动将这段SQL解析为分布式的计算任务，为用户处理数据，得到分析结果；
MapReduce on SQL：基于ODPS SQL框架开发的一套MapReduce编程接口；用户可以编写自己的MapReduce程序，将编译好的jar包上传至ODPS。最后通过简单的命令行方式运行自己的MapReduce任务。
Xlib；ODPS为用户提供的一整套数据挖掘算法，包括但不限于：
- 完全奇异值分解(Full Singular Value Decomposition)
- 部分奇异值分解(Partial Singular Value Decomposition)
- 追加矩阵列(Append Matrix Columns)
- 多列排序和分位(Multi-columns Sorting and Ranking)
- 基础统计（Basic Statistics）
- 逻辑回归模型训练（Logistic Regression Train）
- 逻辑回归模型预测（Logistic Regression Predict）
- 随机森林模型训练（Random Forest Train）
- 随机森林模型预测（Random Forest Predict）
安全：ODPS提供了功能强大的安全服务,为用户的数据安全提供保护；

13. 如果对ODPS不够了解，有哪些可以提前参考学习的资料？

ODPS提供的SQL，MapReduce，Xlib等功能的详细介绍文档会在4月25日前，即第二赛季开始前，对外发布。在此之前，大家可以参考业内其他产品的相关资料：

Hadoop学习资料：http://hadoop.apache.org/

Hive学习资料：http://hive.apache.org/

MapReduce学习资料：http://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf

Mahout学习资料：https://mahout.apache.org/

参赛选手也可自行查找其他学习文档。

ODPS的存储、计算调度依赖于一套阿里巴巴自主研发的分布式系统(飞天，Apsara)。对于分布式存储、计算方面的介绍可以参考Hadoop介绍文档。与Hadoop不同的是，飞天系统在计算调度方面不仅支持离线计算任务的调度，还支持在线服务的调度。此外，飞天支持更复杂的图结构的离线计算任务，而不仅仅是MapReduce框架的任务。

ODPS SQL功能的更多介绍请参考Hive相关资料。

Xlib功能请参考Mahout的学习资料。在支持的算法类型上Xlib与Mahout有很大不同。

特殊声明：ODPS的各项功能的设计与实现同上述产品相比有很多不同。上述资料仅是为缺少分布式开发经验的参赛选手准备。如果想对ODPS产品有全面细致的了解，请关注4月底发布的ODPS官方文档说明。

14. 使用ODPS中，遇到问题如何解决？

ODPS会在2014年4月底向社会开放。您在使用中遇到的各种问题可以通过阿里云网站(http://www.aliyun.com)中的 ”我的阿里云” -> “用户中心” -> “售后支持”提交工单。阿里云会有专门的售后技术支持人员为您解答问题。

本次竞赛还会有专门的论坛供大家讨论问题。此论坛更多关注竞赛规则、数据算法讨论及技术交流范畴。如果您在竞赛过程中有任何ODPS相关的疑问，请通过阿里云网站的售后系统进行反馈，会得到更快的解决。

15. 第二赛季,用于评分的测试集数据时间分布?

用于评测参赛者算法的数据，是采用8月16到9月15一个月内的用户购买数据。该数据不向参赛者公布，系统自动隐藏。

16. 为什么参赛者提交了结果，但没有评分结果？

第一季提交结果后，没有评分结果，可能出错的原因：

a、结果文件格式错误，上传的结果文件必须是txt格式。
b、结果文件内部必须为user_id \t brand_id , brand_id , brand_id \n格式，用户ID和品牌列表采用“\t”分隔，品牌列表内品牌采用“,”分隔。
c、结果文件中不能包含除去数字、“\t”、“,”、“\n”以外任何字符。
d、结果文件中存在空白用户或者空白品牌列表，会导致评分结果受到影响。

第二季提供结果后，没有评分结果，可能出错的原因：

a、参赛者的结果没有放入指定的结果表(t_tmall_add_user_brand_predict_dh)内，请检查表名。
b、参赛者提供的结果表字段与规定不符合，结果数据表必须为user_id和brand两列。
c、参赛者提供的结果数据分隔符错误，预测的用户品牌必须用“,”分隔，请检查。