天池_阿里音乐流行趋势预测大赛(1) —— 赛题分析

原创 2016年06月01日 21:23:33

本文以天池大数据竞赛阿里音乐流行趋势预测大赛为背景,将机器学习实战的背景、模型、算法、代码和结果等都整理下来,放在博客中,算是对自己知识的整理吧,有兴趣的朋友也可以看看一起讨论学习。

由于很多比赛和项目是由第三方提供的,我会仔细核查是否有规定不允许公开讨论相关内容,只有在确定没有限制的情况下,我才会放在个人博客上,但难免会有疏漏,如果有侵权,请及时联系本人,麻烦了。


1、背景材料

1.1 竞赛题目

本次大赛以阿里音乐用户的历史播放数据为基础,期望参赛者可以通过对阿里音乐平台上每个阶段艺人的试听量的预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段内音乐流行趋势的准确把控。

1.2 竞赛数据

大赛开放抽样的歌曲艺人数据,以及和这些艺人相关的6个月内(20150301-20150830)的用户行为历史记录。

(1)用户行为表(mars_tianchi_user_actions)
这里写图片描述
1、共35W用户,其中8.3W只出现过一次
2、共1W首歌,其中500首只出现过一次
3、见2.1
4、频次分别为478W,81W,6W
5、3-1到8-30共183天

(2)歌曲艺人(mars_tianchi_songs)
这里写图片描述
1、共1W首歌,其中500首只出现过一次
2、共50个歌手
3、从19630322到20160227
4、
5、共9种语言
6、男、女、乐队

(3)结果集(mars_tianchi_artist_plays_predict)
选手需要预测艺人随后2个月,即60天(20150901-20151030)的播放数据。
这里写图片描述

1.3 评估指标

这里写图片描述

2、注意点

2.1 unix时间

这里的Unix时间并不是“unix时间戳”,即从1970年1月1日(UTC/GMT的午夜)开始所经过的秒数,不考虑闰秒。
Unix时间戳可以用下述代码转换为常用时间格式

import time

for l in file:
    x = time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(int(l)))
    print x

此处是指是此事件需要应用SQL的内建函数FROM_UNIXTIME进行转化。
函数声明:

datetime from_unixtime(bigint unixtime)

用途:将数字型的unix时间日期值unixtime转为日期值。
unixtime:Bigint类型,秒数,unix格式的日期时间值,若输入为string,double类型会隐式转换为bigint后参与运算。
返回值:Datetime类型的日期值,unixtime为NULL时返回NULL。
示例:

from_unixtime(123456789) = 2009-01-20 21:06:29

数据集中提供的gmt_create只能精确到小时,例如1426377600将转化为2015-3-15 8:0:0,其中2015-3-15信息在Ds中已有提供,即gmt_create只能提供小时。

2.2 FAQ有用信息

(1)用户下载歌曲后,离线在本地播放,仍会产生播放记录。

(2)Q:要预测的艺人当天的播放数据是基于user表中已有用户的播放,还是预测网站中所有用户的播放?
A:需要预测网站中所有用户的播放。注:初赛中是针对用户做了一次随机抽样,后续的真实结果也做了处理。所以原则上,只需要根据已有的用户规模做合理预测即可。

版权声明:本文为博主原创文章,未经博主允许不得转载。

[天池竞赛系列]阿里音乐流行趋势预测大赛初赛三等奖思路

第一赛季8名,第二赛季11名 主要使用模型和规则 预处理:过滤异常用户的操作记录,比如一整天都听同一首歌,疯狂下载歌的等等 构建样本:对每个歌手建模,每一天的播放数据为一个样本,会出现很多突然的波动...
  • Bryan__
  • Bryan__
  • 2016年08月04日 19:17
  • 3912

阿里音乐流行趋势预测大赛 # 第一赛季第21名解决方案

强调内容# 欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮...
  • zxjhdn
  • zxjhdn
  • 2016年07月19日 17:28
  • 2388

阿里天池大数据之移动推荐算法大赛总结及代码全公布

移动推荐算法比赛已经结束了一个多星期了,现在写一篇文章来回顾一下自己的参赛历程。 首先,对不了解这个比赛的同学们介绍一下这个比赛(引用自官网): 赛题简介 2014年是阿里巴巴集团移动电商业务快速发展...
  • Datuqiqi
  • Datuqiqi
  • 2015年07月10日 20:05
  • 18064

阿里天池大数据竞赛——口碑商家客流量预测 A2

阿里天池大赛koubeiyuce1 2017年二月份,天池大数据比赛,口碑商家客流量预测,参赛地址及详情: https://tianchi.shuju.aliyun.com/competiti...
  • tianwangclown
  • tianwangclown
  • 2017年02月15日 14:54
  • 2795

想成为深度学习高手?阿里天池大赛冠军为你规划了一份成长路径

来源:AI科技大本营 作者:刘昕 本文长度为4700字,建议阅读8分钟 中科视拓CEO刘昕为你介绍深度学习进阶路径,关于数学、计算机基础及其他干货。 深度学习本...
  • eNohtZvQiJxo00aTz3y8
  • eNohtZvQiJxo00aTz3y8
  • 2017年11月27日 00:00
  • 255

『阿里大数据竞赛』音乐流行趋势预测_不断更新

# 本文使用的语言是Python, 下面不再说明 # 本文禁止盈利性转载 一、数据预处理     1、读取数据     1.1 原始数据、测试数据与实际数据     什么叫原始数据?为什么要保留一...
  • Sbtgmz
  • Sbtgmz
  • 2016年05月14日 14:04
  • 1790

阿里音乐流行趋势预测大赛-赛后思路整理

赛题介绍 阿里音乐用户的历史播放数据 预测阿里音乐平台艺人的未来60天的播放量 最后top15 1从图入手: 查看规律与趋势 2提出问题: 为什么会出现特别高的播放量? 是否有一定的节假日工作日规律...
  • q383700092
  • q383700092
  • 2016年07月21日 20:15
  • 1566

阿里音乐流行趋势预测大赛一起做-(1)介绍

动机去年在同学推荐下参加了阿里的“资金流入流出预测大赛”,当时对数据挖掘的了解仅存在模糊的概念上,看了那本《大数据时代》后热血沸腾了几天,趁着这三分钟热度还没冷,就在什么都不懂的情况下报名开始搞了。我...
  • electech6
  • electech6
  • 2016年04月09日 11:11
  • 6230

阿里音乐流行趋势预测大赛一起做-(6)小结

最近一直在忙毕业的事情,比赛也落下不少。今天第一次切换了数据,在此对之前的工作做个简单的总结。感谢组委会岱月邀请我写自己的参赛经历,《天池小白成长记》在阿里的“天池大数据科研平台”上发布了,还是蛮激动...
  • electech6
  • electech6
  • 2016年06月07日 14:59
  • 3310

阿里音乐流行趋势预测大赛—浅尝辄止(二)

本篇博文接上一篇博文浅尝辄止(一)的内容,这里主要介绍竞赛给的数据中时间戳的处理方法,时间戳是形如“1426406400”形式的一组时间计数,我们需要将其转化为正常的时分秒的形式,然后再将转化后的结果...
  • qq_14959801
  • qq_14959801
  • 2016年07月28日 14:23
  • 387
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:天池_阿里音乐流行趋势预测大赛(1) —— 赛题分析
举报原因:
原因补充:

(最多只允许输入30个字)