阿里音乐流行趋势预测大赛 # 第一赛季第21名解决方案

原创 2016年07月19日 17:28:20

说明:
我和熊大同学一起组队参加了第一赛季,没有做第二赛季。思路比较简单。分享出来,权当抛砖引玉。

赛题分析
拿到赛题后,我们从四个方向去找特征,一个是歌曲特征,如下载、播放、收藏量等;二是歌手特征,如下载量、播放量、粉丝量等;三是用户特征,如用户每天听歌次数等;四是行为特征,如下载对播放的影响等。
在第一赛季换数据前,约565万条日志,35万用户,1万首歌曲,50位歌手。分析后发现数据很稀疏,尤其是用户方面的数据。跟我们之前的很多设想不太一致。
最终,我们使用了歌曲特征和用户相关的信息进行了预测。

解决方案
主要是针对歌曲和用户两方面进行建模,使用arima模型。两个模型的结果相融合。

一. 针对歌曲进行建模。

  1. 针对每首歌曲每天的播放量使用arima模型进行预测后60天的,将模型预测出为负的值强制更改为0,计算出歌手的后60天每天的播放量。

二.针对用户进行建模。

这块思路稍微复杂一点。

  1. 计算出每位用户六个月的总播放量、总下载量、总收藏量。
  2. 将用户总播放量完全相同的用户视为同一个用户,将他们的日志合并,相当于将原先的35万用户进行了合并。针对这些新用户,计算出“每位新用户-歌手”为主键值对的每天播放量。
  3. 使用arima模型预测,并将预测为负值的设置为0。并合并相同歌手。

三.将前两种预测结果融合。

  1. 两种结果均以权重0.5,相结合。

说明:
1.使用歌曲,而不是歌手,是因为歌曲更加细腻,实际预测出的效果也更好。
2.用户合并问题,平台上35万用户里,有25万用户的个人总播放行为少于10次。理论上,播放量较少的很难个人预测, 放在一起预测,效果很大,对答案的信息带来了增益。
3.源码地址:https://github.com/cheffyu/tianchi/tree/master/ali_music

版权声明:本文为博主原创文章,未经博主允许不得转载。

阿里音乐流行趋势预测大赛一起做-(7)初赛总结之用户分类

音乐预测大赛的初赛今天轰轰烈烈地谢幕了,先来看看排名前10的队伍吧 我们队的成绩在切换数据后一直没有特别大的长进,虽然成绩没有达到预期,但是初赛这些天还是涌现并实现了一些不错的思路,有一些还没有...
  • electech6
  • electech6
  • 2016年06月14日 13:12
  • 2852

阿里音乐流行趋势预测大赛-赛后思路整理

赛题介绍 阿里音乐用户的历史播放数据 预测阿里音乐平台艺人的未来60天的播放量 最后top15 1从图入手: 查看规律与趋势 2提出问题: 为什么会出现特别高的播放量? 是否有一定的节假日工作日规律...
  • q383700092
  • q383700092
  • 2016年07月21日 20:15
  • 1704

阿里音乐流行趋势预测大赛—浅尝辄止(二)

本篇博文接上一篇博文浅尝辄止(一)的内容,这里主要介绍竞赛给的数据中时间戳的处理方法,时间戳是形如“1426406400”形式的一组时间计数,我们需要将其转化为正常的时分秒的形式,然后再将转化后的结果...
  • qq_14959801
  • qq_14959801
  • 2016年07月28日 14:23
  • 407

[天池竞赛系列]阿里音乐流行趋势预测大赛初赛三等奖思路

第一赛季8名,第二赛季11名 主要使用模型和规则 预处理:过滤异常用户的操作记录,比如一整天都听同一首歌,疯狂下载歌的等等 构建样本:对每个歌手建模,每一天的播放数据为一个样本,会出现很多突然的波动...
  • Bryan__
  • Bryan__
  • 2016年08月04日 19:17
  • 4014

阿里音乐流行趋势预测大赛一起做-(5)温故知新

比赛进行到现在已经有十天了,我们队伍已经进入瓶颈期了,具体表现就是: 1、每次线下预测结果都感觉不错,应该可以提升成绩吧,至少和现在成绩相当吧,结果10点成绩出来就傻眼了,成绩一直掉掉掉。 2、黔...
  • electech6
  • electech6
  • 2016年05月27日 11:17
  • 4587

阿里音乐流行趋势预测大赛一起做-(1)介绍

动机去年在同学推荐下参加了阿里的“资金流入流出预测大赛”,当时对数据挖掘的了解仅存在模糊的概念上,看了那本《大数据时代》后热血沸腾了几天,趁着这三分钟热度还没冷,就在什么都不懂的情况下报名开始搞了。我...
  • electech6
  • electech6
  • 2016年04月09日 11:11
  • 6330

天池_阿里音乐流行趋势预测大赛(1) —— 赛题分析

本文以天池大数据竞赛的阿里音乐流行趋势预测大赛为背景,将机器学习实战的背景、模型、算法、代码和结果等都整理下来,放在博客中,算是对自己知识的整理吧,有兴趣的朋友也可以看看一起讨论学习。由于很多比赛和项...
  • lipengcn
  • lipengcn
  • 2016年06月01日 21:23
  • 2122

阿里音乐流行趋势预测大赛一起做-(3)思路

最近几个月忙着写论文,比赛给抛到脑后了(汗颜。。)。昨天阿里给了短信通知,说今天可以提交成绩了,于是抓紧搞起,结果也没赶上截止时间(早上10点)提交。无论如何今天也要提交一次成绩试试水。比赛的详细思路...
  • electech6
  • electech6
  • 2016年05月17日 22:32
  • 5846

阿里音乐流行趋势预测大赛一起做-(6)小结

最近一直在忙毕业的事情,比赛也落下不少。今天第一次切换了数据,在此对之前的工作做个简单的总结。感谢组委会岱月邀请我写自己的参赛经历,《天池小白成长记》在阿里的“天池大数据科研平台”上发布了,还是蛮激动...
  • electech6
  • electech6
  • 2016年06月07日 14:59
  • 3399

『阿里大数据竞赛』音乐流行趋势预测_不断更新

# 本文使用的语言是Python, 下面不再说明 # 本文禁止盈利性转载 一、数据预处理     1、读取数据     1.1 原始数据、测试数据与实际数据     什么叫原始数据?为什么要保留一...
  • Sbtgmz
  • Sbtgmz
  • 2016年05月14日 14:04
  • 1874
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:阿里音乐流行趋势预测大赛 # 第一赛季第21名解决方案
举报原因:
原因补充:

(最多只允许输入30个字)