关闭

阿里音乐流行趋势预测大赛一起做-(1)介绍

标签: 大数据阿里预测音乐
6329人阅读 评论(1) 收藏 举报
分类:

动机

去年在同学推荐下参加了阿里的“资金流入流出预测大赛”,当时对数据挖掘的了解仅存在模糊的概念上,看了那本《大数据时代》后热血沸腾了几天,趁着这三分钟热度还没冷,就在什么都不懂的情况下报名开始搞了。我们三个队员都是新手,刚开始一片茫然后来是手忙脚乱。第一赛季在本地调试算法,期间换了Python,R,MATLAB各种平台和开发环境,倒腾了一个多月,幸运地进入了第二赛季。第二赛季在线上比赛,阿里要求利用ODPS的Map&Reduce、SQL及各种平台集成的机器学习算法包调试模型,从熟悉平台到开始编写,调试代码,我们每晚都忙到晚上12点,看完排名(零点十分左右公布最新排名)才睡觉,排名落后了郁闷睡不着,进步了激动睡不着。这期间也走了不少弯路,虽然不少想法都没能实现,最终还是非常幸运的获得了极客奖。两个半月的努力让我真正认识了实际项目中数据挖掘的流程和存在的问题,拓展了视野。今年看到类似的比赛,就抓紧组队报了名,准备边做比赛边写博客。在记录比赛历程的同时又能和许多牛人交流学习,也是怕自己坚持不下去,先为自己加油。

比赛介绍

下面贴一下官方介绍
本次大赛以阿里音乐用户的历史播放数据为基础,期望参赛队伍通过对阿里音乐平台上每个时间段内艺人的试听量进行预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段内音乐流行趋势的准确把控。大赛将开放一定规模的抽样歌曲艺人数据以及与这些艺人相关的用户行为,参赛队伍需要设计相应的算法进行数据分析和处理,比赛结果按照规定的评价指标使用在线评测程序进行评阅和排名,结果最优者获胜。

参赛对象:

本次大赛面向全社会开放,高等院校、科研单位、互联网企业、创客团队等人员均可报名参赛。参赛队伍可以单人参赛或自由组队(最多不超过3人,可以跨单位组队)。

时间节点

第一赛季(5月17日—6月14日)
平台赋权(6月14日—6月16日)
第二赛季(6月17日—7月15日)
决赛(8月下旬)

赛题数据

具体的赛题和数据注册后可以下载数据, 大赛开放抽样的歌曲艺人数据,以及和这些艺人相关的6个月内(20150301-20150830)的用户行为历史记录。
给出的两个表格我加入了自己的备注
这里写图片描述
这里写图片描述
最后选手需要提交的表格如下
这里写图片描述
具体的评估指标在官网上都有详细介绍。

疑问解答

一些选手研究了数据后发现了不少问题,也产生了不少疑问,这在官方FAQ里有解答。
我选择了部分FAQ里内容和论坛里大家关注的问题copy到这里:

Q: 发布日期20160207,为什么2015年会有播放记录?
A: 发布时间是整张专辑发布才算,有些歌曲先前已经存在,所以系统中存在少量歌曲试听时间会先于发布时间。有的是先发的单曲,然后后面整专辑的时候把单曲收录了。

Q: 如果用户下载歌曲后,离线在本地播放,还会产生记录么?
A: 离线播放也会有播放记录。

Q: 预测的是daily plays,也就是说不包括downloads和collects?
A: 最后预测的是所有用户60天里每天的播放量, 预测艺人下面所有歌曲的播放数的和。

Q:请问后面预测时间段艺人可能会发布新的歌曲吗?以及预测时间是否可能会新增用户?
是有可能有新用户和新歌曲的。
A:参见比赛详情页的这个FAQ:

  • Q:要预测的艺人当天的播放数据是基于user表中已有用户的播放,还是预测网站中所有用户的播放?
    A:需要预测网站中所有用户的播放。注:初赛中是针对用户做了一次随机抽样,后续的真实结果也做了处理。

所以原则上,只需要根据已有的用户规模做合理预测即可。

Q:新用户我们可以预测, 新歌曲不具有普遍性吧 ?一个歌手发歌可不是那么随意的呢。也没任何规律可循啊?
A:你这个问题问的很好,这也是大家各自展示数据分析和预测策略的地方,还有如何在不可预测的时候尽量地做得更好。

Q:艺人歌曲数据是否包含了某个艺人所有曾经发布的歌曲?还是只包含这6个月中有行为的歌曲?
A:我们将没有行为的歌曲过滤了。所以是的,我们提供的歌曲不一定是艺人的全部歌曲,而是有六个月中有行为的歌曲列表。

交流渠道

在这么发达的社交化环境里,肯定会有很多交流方式啦
1.官方论坛
游客可以浏览,需要注册才能提问,会有阿里的师兄师姐们(主要是师兄哈)回答。
2.阿里旺旺官方交流群
群号:1270938233
3、其他待开发方式

3
0
查看评论

天池_阿里音乐流行趋势预测大赛(1) —— 赛题分析

本文以天池大数据竞赛的阿里音乐流行趋势预测大赛为背景,将机器学习实战的背景、模型、算法、代码和结果等都整理下来,放在博客中,算是对自己知识的整理吧,有兴趣的朋友也可以看看一起讨论学习。由于很多比赛和项目是由第三方提供的,我会仔细核查是否有规定不允许公开讨论相关内容,只有在确定没有限制的情况下,我才会...
  • lipengcn
  • lipengcn
  • 2016-06-01 21:23
  • 2122

阿里音乐流行趋势预测大赛一起做-(5)温故知新

比赛进行到现在已经有十天了,我们队伍已经进入瓶颈期了,具体表现就是: 1、每次线下预测结果都感觉不错,应该可以提升成绩吧,至少和现在成绩相当吧,结果10点成绩出来就傻眼了,成绩一直掉掉掉。 2、黔驴技穷。每天为提交成绩而发愁,没有好的思路和方法。看着后面的队伍蹭蹭蹭超越了自己,心里真不是滋味呐。...
  • electech6
  • electech6
  • 2016-05-27 11:17
  • 4587

阿里音乐流行趋势预测大赛一起做-(1)介绍

动机去年在同学推荐下参加了阿里的“资金流入流出预测大赛”,当时对数据挖掘的了解仅存在模糊的概念上,看了那本《大数据时代》后热血沸腾了几天,趁着这三分钟热度还没冷,就在什么都不懂的情况下报名开始搞了。我们三个队员都是新手,刚开始一片茫然后来是手忙脚乱。第一赛季在本地调试算法,期间换了Python,R,...
  • electech6
  • electech6
  • 2016-04-09 11:11
  • 6329

阿里音乐流行趋势预测大赛 # 第一赛季第21名解决方案

强调内容# 欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown...
  • zxjhdn
  • zxjhdn
  • 2016-07-19 17:28
  • 2485

阿里音乐流行趋势预测大赛一起做-(3)思路

最近几个月忙着写论文,比赛给抛到脑后了(汗颜。。)。昨天阿里给了短信通知,说今天可以提交成绩了,于是抓紧搞起,结果也没赶上截止时间(早上10点)提交。无论如何今天也要提交一次成绩试试水。比赛的详细思路其实我也没怎么想好,有一些初步的想法和实践分享一下。思路我的想法比较简单,就是先用最简单的方法做一下...
  • electech6
  • electech6
  • 2016-05-17 22:32
  • 5846

阿里音乐流行趋势预测大赛-赛后思路整理

赛题介绍 阿里音乐用户的历史播放数据 预测阿里音乐平台艺人的未来60天的播放量 最后top15 1从图入手: 查看规律与趋势 2提出问题: 为什么会出现特别高的播放量? 是否有一定的节假日工作日规律? 不同歌手建模还是单独歌手建模或者歌曲建模? 不同歌手趋势是否相同? 3解决问题 为什么会出现特别...
  • q383700092
  • q383700092
  • 2016-07-21 20:15
  • 1703

阿里音乐流行趋势预测大赛一起做-(6)小结

最近一直在忙毕业的事情,比赛也落下不少。今天第一次切换了数据,在此对之前的工作做个简单的总结。感谢组委会岱月邀请我写自己的参赛经历,《天池小白成长记》在阿里的“天池大数据科研平台”上发布了,还是蛮激动的。好啦,进入正题!扒一扒别人的方法在论坛和QQ群里看到有部分同学透露自己的方法,我就顺道记下来啦,...
  • electech6
  • electech6
  • 2016-06-07 14:59
  • 3399

阿里音乐流行趋势预测大赛—浅尝辄止(二)

本篇博文接上一篇博文浅尝辄止(一)的内容,这里主要介绍竞赛给的数据中时间戳的处理方法,时间戳是形如“1426406400”形式的一组时间计数,我们需要将其转化为正常的时分秒的形式,然后再将转化后的结果写入到csv文件当中去,最后我们得到的转换前的和转换后的文件内容形式如下:
  • qq_14959801
  • qq_14959801
  • 2016-07-28 14:23
  • 407

阿里音乐流行趋势预测大赛一起做-(7)初赛总结之用户分类

音乐预测大赛的初赛今天轰轰烈烈地谢幕了,先来看看排名前10的队伍吧 我们队的成绩在切换数据后一直没有特别大的长进,虽然成绩没有达到预期,但是初赛这些天还是涌现并实现了一些不错的思路,有一些还没有来得及实现或者优化,相比去年资金预测时候的我们已经有很大进步啦(自我安慰)。看到群里不少人在询问大神...
  • electech6
  • electech6
  • 2016-06-14 13:12
  • 2852

『阿里大数据竞赛』音乐流行趋势预测_不断更新

# 本文使用的语言是Python, 下面不再说明 # 本文禁止盈利性转载 一、数据预处理     1、读取数据     1.1 原始数据、测试数据与实际数据     什么叫原始数据?为什么要保留一份原始数据?    ...
  • Sbtgmz
  • Sbtgmz
  • 2016-05-14 14:04
  • 1874
    个人资料
    • 访问:218468次
    • 积分:2641
    • 等级:
    • 排名:第16291名
    • 原创:65篇
    • 转载:0篇
    • 译文:0篇
    • 评论:159条
    我的微信公众号
      计算机视觉life
      关注CV, ML, AI,坚持原创。
    最新评论