12.6如何训练数据
ALS训练数据格式是RatingRDD数据类型
12.6.1配置文件读取路径
以上程序判断
·如果sc.master[0:5]是“local”,代表当前本地运行,读取文本文件。
·sc.master[0:5]不是是“local”,就有可能是YARN client或者Spark Stand Alone,必须读取HDFS文件。
12.6.2导入-100k数据
我们使用sc.textFile读取ml-100k数据集的u.data,并查看数据项数
12.6.3查看u.data第一项数据
以上4个字段分别是:用户id、项目id、评价、日期时间。
12.6.4导入Rating模块
12.6.5读取rawUserRDD前3个字段
12.6.6准备ALS训练数据
ALS训练数据格式是RatingRDD数据类型,Rating定义如下。
Rating(user,product,rating)
各字段说明:
字段 | 说明 |
---|---|
User | 用户 |
Product | 产品</ |