本篇文章将结合一个实例来看看Mapper/Reducer代码构建思路
Last.fm是一个音乐社区网站,需要根据用户的收听记录生成不同种类的歌曲榜单,用户数据主要有以下两个来源:
l 用户在自己设备上播放的音乐(称为scrobble)
l 用户在Last.fm网站的广播电台在线收听(radio),用户可以选择跳过(skip)
数据提交到Last.fm后,经过验证和转换,最后存储为一行空格分隔的文本,像以下的格式:
UserId |
TrackId |
Scrobble |
Radio |
Skip |
15 |
22 |
0 |
1 |
0 |
13 |
25 |
1 |
0 |
0 |