关闭

阿里音乐流行趋势预测大赛一起做-(5)温故知新

标签: 预测音乐趋势阿里
4586人阅读 评论(19) 收藏 举报
分类:

比赛进行到现在已经有十天了,我们队伍已经进入瓶颈期了,具体表现就是:
1、每次线下预测结果都感觉不错,应该可以提升成绩吧,至少和现在成绩相当吧,结果10点成绩出来就傻眼了,成绩一直掉掉掉。
2、黔驴技穷。每天为提交成绩而发愁,没有好的思路和方法。看着后面的队伍蹭蹭蹭超越了自己,心里真不是滋味呐。

那么问题来了,到底怎么破?

我觉得可以先考虑从两方面入手:
1、多交流、多思考、多尝试。话说一个队伍内的小伙伴呆的时间久了,大家的思想会受彼此影响而趋同,很难有新的思路和火花。真心希望能和不同队伍之间在不违规的前提下进行思想交流,每个队伍都闭门造车,思路就打不开,进步就很困难。天池论坛还是缺乏像kaggle那种友好的讨论氛围,我期待的比赛队伍之间应该是在热烈的讨论氛围下共同进步,毕竟最后能拿奖的也就那几个,大家参赛的初衷也是来学习的,抛却了这些杂念大家才能营造一个和谐上进的论坛氛围。这也是我写这一系列博客的原因。
2、学习别人的经验,尤其是思考问题和解决问题的办法,可以是以往类似的比赛(天池大赛、kaggle等)也可以是书籍。这篇博客就是重温去年的“资金流入流出预测大赛”冠军的总结,来给大家提供一些思路。

重温2015“资金流入流出预测大赛”

首先看下资金流入流出预测大赛的官方介绍,总决赛冠军队“三只熊”的决赛演讲视频连接
资金流入流出预测大赛问题可以简单描述为:
给定10W余额宝用户过去14个月的操作历史数据,预测未来1个月内每天的申购赎回总额。
TOP4队伍的思路都基本一致: 按自然日对数据进行了汇总,得到了427天(14个月)的时间序列数据,然后用时间序列或者回归方法进行预测。
阿里音乐流行趋势预测大赛问题可以描述为:
给定35W阿里音乐用户过去6个月的对1W首歌曲的历史操作数据,预测未来2个月内每个艺人每天的总播放量。
“资金流入流出预测大赛”(简称资金预测)和“阿里音乐流行趋势预测大赛”(简称音乐预测)有什么异同点呢?
相同点:
1、都是回归问题,都有明显的时间序列特征。
2、都提供了丰富的用户操作历史记录。
不同点:
1、难度上来说,音乐预测难度明显更高:给定的历史数据更少,要预测的时间更长;要预测50个歌手每天的播放数量(50个维度的时间序列),而资金预测只需要预测申购和赎回每天的总量(本质是余额宝一个维度的时间序列);
2、音乐预测除了涉及到用户信息,还涉及到歌曲信息,而资金预测仅仅涉及用户信息和少量的第三方信息(上海银行间同业拆放利率表,然并卵 )。
总之,阿里音乐流行趋势预测大赛的难度虽然有所提升,但是本质上和资金流入流出预测大赛是类似的问题,所以对资金流入流出预测大赛的分析还是很有参考价值的。

冠军团队的参考价值分析

看了冠军团队“三只熊”的决赛视频和PPT,总结分析如下:

1、问题定位

三只熊将资金预测定位为经济时间序列回归/预测问题,最后用时间序列分析中的STL分解方法进行预测。
音乐预测和资金预测本质应该是同一个问题,应该可以借鉴时间序列分析方法,当然还有其他的回归模型也可以借鉴。

2、数据预处理

三只熊做了如下数据预处理:
这里写图片描述
我们逐条分析:
第1条在音乐预测中是不存在的,我们可以考虑去掉一些离群点对数据进行平滑。
第2条按照自然日进行汇总,相信大部分队伍都是这么做的。
第3条用户分类。也就是分为是否是歌迷粉丝。但是想要得到一个好的分类不太容易,阈值如何设置?能否分类后将非线性问题转化为线性问题?
关于这一点也是作为第一名的三只熊团队相对后面三支团队的独创性吧,后面三支队伍都没有做用户分类(专业术语应该是人群画像吧),三只熊在这方面的贡献应该增加了不少优势吧。具体来说,三只熊成功的选定了一个阈值分离出一个线性变量,如下图
这里写图片描述
这样的思路应该是很值得学习的。更进一步,这个阈值点如果不是靠人工的线下测试而是靠算法自动获得的,那就更完美了,因为音乐预测有50位歌手需要预测,纯靠经验来选阈值估计要哭晕在厕所了。如果选的不合适,切换数据后要再来50次,估计要死的心都有了。
第4条人均化处理我觉得也是可以尝试的,起码在用户分类上能起到作用。

3、误区提醒

毕竟两个比赛还是有差异的,我个人觉得资金预测可能存在以下误区:
1)资金预测过于关注特殊日期的预测
如下图是三只熊关于特殊日期的处理:
这里写图片描述
可以发现特殊日期(节假日、双十一、打新股)对预测结果有较大影响,而且这些特殊日期没有一定的规律,所以需要人工调参。这也是后来很多队伍陷入人工调参误区的主要原因。
我觉得音乐预测已经比较好的规避了该问题,组委会应该是不希望看到大家人工调参去逼近结果的,所以建议不要为了提高分数盲目地人工调整数据,因为很浪费时间和精力,而且对自己的能力没有什么提升,并且很有可能在数据切换后一脸懵逼。
2)模型最好不要太复杂
以下是三只熊的模型,由于资金预测比较倚重特殊的时间节点,导致了最后的模型受制于这些特殊时间而变的相对复杂。个人认为音乐预测的好的模型应该是简单而有效的,如有不同观点希望能讨论。
这里写图片描述

感悟

引用三只熊队伍的感悟作为结尾:
这里写图片描述

英雄不问出处,奉献才有收获!愿交流分享,共同进步!

3
0
查看评论

阿里音乐流行趋势预测大赛-赛后思路整理

赛题介绍 阿里音乐用户的历史播放数据 预测阿里音乐平台艺人的未来60天的播放量 最后top15 1从图入手: 查看规律与趋势 2提出问题: 为什么会出现特别高的播放量? 是否有一定的节假日工作日规律? 不同歌手建模还是单独歌手建模或者歌曲建模? 不同歌手趋势是否相同? 3解决问题 为什么会出现特别...
  • q383700092
  • q383700092
  • 2016-07-21 20:15
  • 1703

阿里音乐流行趋势预测大赛—浅尝辄止(二)

本篇博文接上一篇博文浅尝辄止(一)的内容,这里主要介绍竞赛给的数据中时间戳的处理方法,时间戳是形如“1426406400”形式的一组时间计数,我们需要将其转化为正常的时分秒的形式,然后再将转化后的结果写入到csv文件当中去,最后我们得到的转换前的和转换后的文件内容形式如下:
  • qq_14959801
  • qq_14959801
  • 2016-07-28 14:23
  • 407

阿里音乐流行趋势预测大赛一起做-(5)温故知新

比赛进行到现在已经有十天了,我们队伍已经进入瓶颈期了,具体表现就是: 1、每次线下预测结果都感觉不错,应该可以提升成绩吧,至少和现在成绩相当吧,结果10点成绩出来就傻眼了,成绩一直掉掉掉。 2、黔驴技穷。每天为提交成绩而发愁,没有好的思路和方法。看着后面的队伍蹭蹭蹭超越了自己,心里真不是滋味呐。...
  • electech6
  • electech6
  • 2016-05-27 11:17
  • 4586

阿里音乐流行趋势预测大赛 # 第一赛季第21名解决方案

强调内容# 欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown...
  • zxjhdn
  • zxjhdn
  • 2016-07-19 17:28
  • 2485

[天池竞赛系列]阿里音乐流行趋势预测大赛初赛三等奖思路

第一赛季8名,第二赛季11名 主要使用模型和规则 预处理:过滤异常用户的操作记录,比如一整天都听同一首歌,疯狂下载歌的等等 构建样本:对每个歌手建模,每一天的播放数据为一个样本,会出现很多突然的波动,使用7点平滑 特征:因为是对每个歌手建模,所以不用考虑歌手特征,全部使用时间特征 工作日,节假日,...
  • Bryan__
  • Bryan__
  • 2016-08-04 19:17
  • 4014

阿里音乐流行趋势预测大赛一起做-(1)介绍

动机去年在同学推荐下参加了阿里的“资金流入流出预测大赛”,当时对数据挖掘的了解仅存在模糊的概念上,看了那本《大数据时代》后热血沸腾了几天,趁着这三分钟热度还没冷,就在什么都不懂的情况下报名开始搞了。我们三个队员都是新手,刚开始一片茫然后来是手忙脚乱。第一赛季在本地调试算法,期间换了Python,R,...
  • electech6
  • electech6
  • 2016-04-09 11:11
  • 6329

阿里音乐流行趋势预测大赛一起做-(3)思路

最近几个月忙着写论文,比赛给抛到脑后了(汗颜。。)。昨天阿里给了短信通知,说今天可以提交成绩了,于是抓紧搞起,结果也没赶上截止时间(早上10点)提交。无论如何今天也要提交一次成绩试试水。比赛的详细思路其实我也没怎么想好,有一些初步的想法和实践分享一下。思路我的想法比较简单,就是先用最简单的方法做一下...
  • electech6
  • electech6
  • 2016-05-17 22:32
  • 5846

阿里音乐流行趋势预测大赛一起做-(6)小结

最近一直在忙毕业的事情,比赛也落下不少。今天第一次切换了数据,在此对之前的工作做个简单的总结。感谢组委会岱月邀请我写自己的参赛经历,《天池小白成长记》在阿里的“天池大数据科研平台”上发布了,还是蛮激动的。好啦,进入正题!扒一扒别人的方法在论坛和QQ群里看到有部分同学透露自己的方法,我就顺道记下来啦,...
  • electech6
  • electech6
  • 2016-06-07 14:59
  • 3399

阿里音乐流行趋势预测大赛一起做-(7)初赛总结之用户分类

音乐预测大赛的初赛今天轰轰烈烈地谢幕了,先来看看排名前10的队伍吧 我们队的成绩在切换数据后一直没有特别大的长进,虽然成绩没有达到预期,但是初赛这些天还是涌现并实现了一些不错的思路,有一些还没有来得及实现或者优化,相比去年资金预测时候的我们已经有很大进步啦(自我安慰)。看到群里不少人在询问大神...
  • electech6
  • electech6
  • 2016-06-14 13:12
  • 2852

『阿里大数据竞赛』音乐流行趋势预测_不断更新

# 本文使用的语言是Python, 下面不再说明 # 本文禁止盈利性转载 一、数据预处理     1、读取数据     1.1 原始数据、测试数据与实际数据     什么叫原始数据?为什么要保留一份原始数据?    ...
  • Sbtgmz
  • Sbtgmz
  • 2016-05-14 14:04
  • 1874
    个人资料
    • 访问:218467次
    • 积分:2641
    • 等级:
    • 排名:第16291名
    • 原创:65篇
    • 转载:0篇
    • 译文:0篇
    • 评论:159条
    我的微信公众号
      计算机视觉life
      关注CV, ML, AI,坚持原创。
    最新评论