使用Spark进行简单的数据统计
给定数据集为各年龄段不同性别的用户对电影观看情况的一个统计主要用了Spark中算子的一些操作
相关的数据文件
1. 年龄段在“18-24”的男性年轻人,最喜欢看哪10部
首先读取文件,在用户文件中读取符合条件的年轻人
val conf =new SparkConf().setAppName("read_gz_file").setMaster("local")
val sc =new SparkContext(conf)
val user = sc.textFile("users.dat")
val movies = sc.textFile("movies.dat")
val rating = sc.textFile("ratings.dat")
val M_user = user.map(_.split("::")).filter(temp =>
temp(2).toInt >= 18 & temp(2).toInt <= 24 & temp(1).equals("M") ).map{
x =>(x(0),(x(1