通过Spark交互模式执行scala代码

最新推荐文章于 2024-05-27 08:08:34 发布

高级cv算法设计师

最新推荐文章于 2024-05-27 08:08:34 发布

阅读量601

点赞数 1

文章标签： spark

本文链接：https://blog.csdn.net/qq_44732013/article/details/114682803

版权

“Spark’s primary abstraction is a distributed collection of items called a Dataset”
Spark的主要抽象是Dataset的分布式item集合

val textFile =spark.read.textFile(文件地址） 在这里插入图片描述

textFile.count()//计算item个数，也就是文件行数

可见文章行数为108

textFile.first()//返回第一个item内容，也就是第一行的内容

在这里插入图片描述

在这里插入图片描述
4.一些稍微复杂的操作

textFile.map(line=>line.split(" ").size).reduce((a,b)=>if(a>b)a else b)

在这里插入图片描述

val wordCounts=textFile.flatMap(line=>line.split(" ")).groupByKey(identit).count()
wordCounts.collect()

在这里插入图片描述

val linesWithSpark=textFile.filter(line=>line.contains("Spark")

在这里插入图片描述

将结果保存在缓存中（Spark区别于Mapreduce的重点，Mapreduce将中间结果转化为文件存储在HDFS中），虽然此时数据比较小，存取比较快，但当数据量很大的时候，性能相比于传统的磁盘存储会提升不少。

linesWithSpark.cache()

在这里插入图片描述

关注