目录
从分布式文件系统HDFS中加载数据、将RDD转换为DataFrame。
统计销售排行前10的商品类目所包含的商品中销售量排行前十的商品
数据集说明
名称 | 说明 |
---|---|
用户ID | 整数类型,序列化后的用户ID |
商品ID | 整数类型,序列化后的商品ID |
商品类目ID | 整数类型,序列化后的商品所属类目ID |
行为类型 | 字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav') |
行为发生的时间 | 行为发生的时间戳 |
行为类型 | 说明 |
---|---|
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
代码解析
从分布式文件系统HDFS中加载数据、将RDD转换为DataFrame。
从RDD转换得到DataFrame有两种方式,一是利用反射机制推断RDD模式,二是使用编程方式定义RDD模式。这里使用第一种方式将RDD转换为DataFrame,需要注意的是应提前定义case class,这样才能被spark隐式转换为DataFrame。
case class Info(userId: Integer, itemId: Integer, cateId: Integer ,action: String, time:String)
al conf = new SparkConf().setAppName("cate").setMaster("local")
val sc = new