Spark机器学习HelloWorld系列(一)音乐推荐

Spark机器学习HelloWorld系列(一)个性化推荐

一、数据集准备

本教程使用的是数据集是LAST.FM的音乐推荐数据,数据集包括2个文件:

1.用户文件:usersha1-profile.tsv
数据列为:

user-mboxsha1 \t gender ('m'|'f'|empty) \t age (int|empty) \t country (str|empty) \t signup (date|empty)

示例数据:

用户ID                                    性别 年龄  国籍          注册日期
000063d3fe1cf2ba248b9e3c3f0334845a27a6bf    m    19    Mexico    Apr 28, 2008

2.用户播放记录:usersha1-artmbid-artname-plays.tsv:

数据列为:

 user-mboxsha1 \t musicbrainz-artist-id \t artist-name \t plays

示例数据:

用户ID  艺术家ID 艺术家名称 播放次数
000063d3fe1cf2ba248b9e3c3f0334845a27a6bf    af8e4cc5-ef54-458d-a194-7b210acf638f    cannibal corpse    48

数据集下载地址:

http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-360K.html

二、数据集上传到HDFS

解压文件后,上传数据文件到HDFS

cd lastfm-dataset-360K
hadoop fs -put * /user/mldata/lastfm360k/

三、准备训练数据集

将现有数据文件做成3个部分,用于机器学习:
1.用户文件
2.用户评分
3.艺术家文件

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值