阿里音乐-比赛记录(1)

原创 2016年06月02日 00:45:12

第一次从数模比赛走向数据挖掘比赛,感觉很不一样,很多书本上的知识点,自己能够调用的实在太少。熟悉业务才能谈挖掘这句话,望自己在比赛中多多总结感悟,学习到更多知识,更好的借鉴前人的经验,来完善自身经验上的不足。
在6490分数卡死10天+,看着排名由两位数到3位数,各种措施和小技巧都不起作用。莫名心塞,总结一下前段时间看资金流比赛PPT,常看看,看看自身能否有所感悟,突破。

资金流比赛,时间序列方法

1) 首先理解时间序列的基本组成,一般有两种模式,加法和乘法,一般而言,加法和乘法是可以相互转换的(取对数)。时间序列基本公式:

Y=(C)+(T)+(S)+eY=(C)(T)(S)e

2) 获奖选手对于公式不同部分的处理:

  1. 水平和趋势,一般统称为T,音乐上我个人感觉水平跟趋势可以当作RMSE最小的数学期望进行研究,因为群里有大神网友指出通过均值水平评分可以达到6500分以上。资金流预测中,黑风和酸辣紫菜泡面的PPT上指出资金流的趋近平稳,对于音乐上我也是这么认为的,近期的均值类似于未来趋势,但音乐影响因素很多,不过可以将其分为确定性因数和非确定因数,确定性因素如从用户角度某部分群众形成的播放量处于平稳状态,和老音乐的播放量基本每天都有较为稳定的播放量,只有少数时候被某些用户某天狠狠的放了个几十几百遍,突然暴涨一下。不确定因素如新歌对总体均值的影响,突然各类用户播放量暴涨后会如何回落等等。未来趋势上,天戏使用均值代替未来趋势,大熊队是用auto.arima(准则未知,AIC?BIC?)得出的收敛均值代替未来趋势。音乐上对于未来均值可能需要更多的考虑,或许从

    的三者两两之间的业务角度上多多考虑。
  2. 周期上,资金流的数据周期性明显。而音乐的播放量数据感觉也是存在周期性的,但是波动大,外部影响因素多,不明显(通过7,8月线下测试看出,有大部分趋势接近),并且异常行为多。例如:某些人一天单人单曲播放量就上500多最多的上千。所以感觉数据预处理是一个比较重要的点,天戏剔除了单日成申购偏高的记录,后用平稳的均值当作趋势,再求周期S。大熊队是用stl分解(用移动平均剔除趋势后,再对序列求周期)求周期S。
  3. 随机扰动e,基本都是对节假日进行修正,天戏团队是个人的节日经验得出偏高结论进行修正的。音乐上,可用到未来信息包括周期,节假日(学生用户-开学季?),以及新歌发售等等。
  4. 总结:阿里音乐这题,因为外部影响因素太多,随机扰动并不是特别的明确,所以如何准确对对未来期望进行分析,是这道题目的重点中的重点。

其他

三只熊团队,结尾引用了一句话:要想改善对象特征,必须对象上获取信息,并将这种信息反作用于对象上,这叫控制。个人很喜欢这句话。

版权声明:本文为博主原创文章,未经博主允许不得转载。

阿里音乐流行趋势预测大赛 # 第一赛季第21名解决方案

强调内容# 欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮...
  • zxjhdn
  • zxjhdn
  • 2016年07月19日 17:28
  • 2379

阿里音乐流行趋势预测大赛一起做-(3)思路

最近几个月忙着写论文,比赛给抛到脑后了(汗颜。。)。昨天阿里给了短信通知,说今天可以提交成绩了,于是抓紧搞起,结果也没赶上截止时间(早上10点)提交。无论如何今天也要提交一次成绩试试水。比赛的详细思路...
  • electech6
  • electech6
  • 2016年05月17日 22:32
  • 5685

『阿里大数据竞赛』音乐流行趋势预测_不断更新

# 本文使用的语言是Python, 下面不再说明 # 本文禁止盈利性转载 一、数据预处理     1、读取数据     1.1 原始数据、测试数据与实际数据     什么叫原始数据?为什么要保留一...
  • Sbtgmz
  • Sbtgmz
  • 2016年05月14日 14:04
  • 1775

阿里音乐流行趋势预测大赛一起做-(1)介绍

动机去年在同学推荐下参加了阿里的“资金流入流出预测大赛”,当时对数据挖掘的了解仅存在模糊的概念上,看了那本《大数据时代》后热血沸腾了几天,趁着这三分钟热度还没冷,就在什么都不懂的情况下报名开始搞了。我...
  • electech6
  • electech6
  • 2016年04月09日 11:11
  • 6204

阿里音乐流行趋势预测大赛一起做-(1)介绍

动机 去年在同学推荐下参加了阿里的“资金流入流出预测大赛”,当时对数据挖掘的了解仅存在模糊的概念上,看了那本《大数据时代》后热血沸腾了几天,趁着这三分钟热度还没冷,就在什么都不懂的情况下报名开始...
  • xiaopihaierletian
  • xiaopihaierletian
  • 2017年02月16日 14:50
  • 351

天池_阿里音乐流行趋势预测大赛(1) —— 赛题分析

本文以天池大数据竞赛的阿里音乐流行趋势预测大赛为背景,将机器学习实战的背景、模型、算法、代码和结果等都整理下来,放在博客中,算是对自己知识的整理吧,有兴趣的朋友也可以看看一起讨论学习。由于很多比赛和项...
  • lipengcn
  • lipengcn
  • 2016年06月01日 21:23
  • 1986

天池大坑-阿里音乐尝试(1)

简单尝试一下阿里音乐,最多做到baseline吧,主要是想熟悉一下流程和工具 so,第一步将数据导入SQL中,百万级有Mysql就可以了,还是习惯windows下的XAMPP+NaviCat,简单好...
  • qjc937044867
  • qjc937044867
  • 2016年03月16日 11:13
  • 1302

天猫移动推荐算法比赛记录(1)

java分割文件 正则表达式搜索
  • GOGOAWAY
  • GOGOAWAY
  • 2015年04月06日 18:13
  • 869

阿里菜鸟仓库比赛说明

  • 2016年06月01日 20:37
  • 32KB
  • 下载

WSDM-KKBOX音乐推荐比赛总结

比赛介绍给定用户人口统计特征,歌曲信息,预测用户听了某歌后未来一个月内是否会重新聆听数据集 印象中有三四万的用户 歌曲有两百多万首 用户-歌曲对 测试集和训练集共有约一千万个...
  • qrfaction
  • qrfaction
  • 2017年12月19日 20:41
  • 19
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:阿里音乐-比赛记录(1)
举报原因:
原因补充:

(最多只允许输入30个字)