SCALA RDD编程基础

最新推荐文章于 2024-05-12 23:09:15 发布

愿人了

最新推荐文章于 2024-05-12 23:09:15 发布

阅读量1.5k

点赞数 3

分类专栏： Spark 文章标签：大数据 hadoop spark scala

本文链接：https://blog.csdn.net/qq_43503329/article/details/112601088

版权

Spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

SCALA RDD编程基础

实验目的

熟悉Scala语法和函数式编程方法；掌握Scala和Spark Core编程环境配置；掌握常用Scala容器方法；掌握基于Scala的Spark RDD编程。

实验内容

配置Scala和Spark Core编程环境
将文件Online Retail.txt上传至HDFS
编写代码，实现以下功能：
(1) 将Online Retail.txt按行读取至RDD
(2) 统计各咖啡商品的销售额，按金额降序排列后保存
(3) 统计各顾客的总消费金额，按金额降序排列后保存
(4) 统计各顾客最贵订单的金额，按金额降序排列后保存
(5) 思考：计算与每个商品同单购买概率最高的商品
商品i与商品j同单购买概率 = 商品i与商品j的共同订单数 / 商品i的总单数
编译代码输出jar包并上传
执行spark-submit运行程序

实验步骤

配置好Scala和Spark Core编程环境
将Online_Retail.txt上传至HDFS
编写代码解决问题
编译代码输出jar包并上传
执行spark-submit运行程序

实验结果

试验运行过程及结果

配置Scala和Spark Core编程环境

在这里插入图片描述

将文件Online Retail.txt上传至HDFS

在这里插入图片描述

(2)(3)(4)代码

val conf = new SparkConf()  
conf.setAppName("My Rdd")  
val sc = new SparkContext(conf)  
val rdd = sc.textFile("hdfs://主机名或ip地址:端口号/文件路径").map(x => x.split("\t")) //按行读取文件  
val rdd1 = rdd.map(x => (x(2), x(3), (5))) // 将商品名，商品数量，商品单价提取出来  
val coffee_pattern = ".*?COFFEE.*?".r // 将名字中带“COFFEE”的提取出来  
val rdd_coffee = rdd1.map(x => ((coffee_pattern findFirstIn x._1), x._2.toFloat * x._3.toFloat)).filter(_._1 != None)  
  .reduceByKey(_ + _) // 将咖啡类商品提取出来，并将同一品牌的聚合在一起  
  .sortBy(_._2, false) // 降序排列  
rdd_coffee.saveAsTextFile("hdfs://主机名或ip地址:端口号/文件路径") //保存文件  
val rdd2 = rdd.map(x => (x(6), x(3), x(5))) // 将客户号，商品数量，商品单价提取出来  
val rdd_customer = rdd2.map(x => (x._1, x._2.toFloat * x._3.toFloat)).reduceByKey(_ + _).sortBy(_._2, false) // 计算出各顾客的总消费金额，降序排列  
rdd_customer.saveAsTextFile("hdfs://主机名或ip地址:端口号/文件路径") // 保存文件  
val rdd3 = rdd.map(x => (x(6), x(0), (x(3), x(5)))) // 将客户号，订单号，商品数量，商品单价提取出来  
val rdd_customer_price = rdd3.map(x => ((x._1, x._2), x._3._1.toFloat * x._3._2.toFloat)).reduceByKey(_+_).map(x=>(x._1._1, x._2)) //用客户号和订单号进行规约操作，计算客户每个订单的总金额，再将订单号去除  
rdd_customer_price.groupByKey().map(x=>(x._1, x._2.max)).sortBy(_._2, false) // 用客户号聚合客户的所有订单金额，再降序排列  
rdd_customer_price.saveAsTextFile("hdfs://主机名或ip地址:端口号/文件路径") // 保存文件  
 }
}

打包jar包

在这里插入图片描述

上传jar包
运行代码
数据预览

实验体会

本次实验更换过Intellij idea的scala的版本，从2.13.3版本更换成2.12.10，解决了部分问题。
在这里插入图片描述

愿人了

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
SCALA RDD编程基础

SCALA RDD编程基础实验目的熟悉Scala语法和函数式编程方法；掌握Scala和Spark Core编程环境配置；掌握常用Scala容器方法；掌握基于Scala的Spark RDD编程。实验内容配置Scala和Spark Core编程环境将文件Online Retail.txt上传至HDFS编写代码，实现以下功能：(1) 将Online Retail.txt按行读取至RDD(2) 统计各咖啡商品的销售额，按金额降序排列后保存(3) 统计各顾客的总消费金额，按金额降序排列后保存(4
复制链接

扫一扫