【spark】小试牛刀sparksql和rdd

m 宽

已于 2022-12-05 19:57:19 修改

阅读量569

点赞数

分类专栏：大数据文章标签： spark 大数据分布式

于 2022-12-05 18:41:41 首次发布

本文链接：https://blog.csdn.net/m0_58598240/article/details/128191287

版权

大数据专栏收录该内容

10 篇文章 1 订阅

订阅专栏

数据资料参考百度网盘：链接：https://pan.baidu.com/s/1nUj0NkKyHg0JoefJ_oz3ig?pwd=de8t
提取码：de8t

学习内容：

在spark shell中完成3个pdf文件中相应RDD基本操作
Patient3.csv中包含病历数据，字段分别为：pid, 身高，体重，腰围，舒张压，收缩压。请RDD操作分别统计以下值：
1)病人数量、平均身高、体重最大值、收缩压方差
2)按体重升序、舒张压降序排序并输出
温度.txt数据中包含一段时间的温度测量数据，数据说明如下：
a)第15-19个字符是年份
b)第45-50位是温度表示，+表示零上 -表示零下，且温度的值不能是9999，9999表示异常数据
c)第50位值只能是0、1、4、5、9几个数字
要求：采用Spark SQL实现获取每年的最低温度。

val df = spark.read.option("header", "true").format("csv").load("data/patients3.csv")
df.describe("height","weight","systbp").show()
df.orderBy(df("weight"),-df("diasbp")).show()

在这里插入图片描述

val temp_filter = temp.filter(s => (s!="")&&(s.substring(46,50)!="9999")&&(List(0,1,4,5,9).contains(s.substring(50,51).toInt))).map( line => {
  (line.substring(15,19).toInt,line.substring(45,50).toInt)
} ).groupByKey().map(values=>(values._1,values._2.min)).collect()

在这里插入图片描述

m 宽

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【spark】小试牛刀sparksql和rdd

1、在spark shell中完成3个pdf文件中相应RDD基本操作2、Patient3.csv中包含病历数据，字段分别为：pid, 身高，体重，腰围，舒张压，收缩压。请RDD操作分别统计以下值：
复制链接

扫一扫