赛题和数据
经过7年的发展与沉淀,目前阿里音乐拥有数百万的曲库资源,每天千万的用户活跃在平台上,拥有数亿人次的用户试听、收藏等行为。在原创艺人和作品方面,更是拥有数万的独立音乐人,每月上传上万个原创作品,形成超过几十万首曲目的原创作品库,如此庞大的数据资源库对于音乐流行趋势的把握有着极为重要的指引作用。
本次大赛以阿里音乐用户的历史播放数据为基础,期望参赛者可以通过对阿里音乐平台上每个阶段艺人的试听量的预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段内音乐流行趋势的准确把控。
回复"阿里音乐"获取数据
数据内容
分析
这里是p2的数据,利用字典,元组,列表之间的关系创建类似二维表的数据结构,在以歌曲名为主键将两个表和起来。
最后我们采用的是时间序列预测模型,进入复赛,然后就没有然后了。时间序列预测是有瓶颈的,如果要做用户的聚类分析,再进行这样的统计可能会更好。
程序
评估函数
代码
这里注意除法是不是地板除,还有列表的类型,从而保证不会取整
数据挖掘入门与实战
搜索添加微信公众号:datadw
教你机器学习,教你数据挖掘
长按图片,识别二维码,点关注
公众号推荐: weic2c
数据分析入门与实战
从哪里做起学习数据分析?
如何培养数据分析的能力?
长按图片,识别二维码,点关注
Read more
Pageview 3598
投诉
精选留言
写留言
陈新河
阿里音乐的数据应该有两个表,网盘链接只有一个,能分享一下第二个表(mars_tianchi_songs)数据嘛?
6天前
作者回复
已经上传了,老方式获取
6天前
以上留言由公众号筛选后显示
了解留言功能详情