spark中textFile、groupByKey、collect、flatMap、map结合小案例（案例虽小，功能齐全）

最新推荐文章于 2022-04-22 21:48:38 发布

RiverCode

最新推荐文章于 2022-04-22 21:48:38 发布

阅读量3.4k

点赞数

分类专栏： Spark算子文章标签： spark groupBykey flatMap map

本文链接：https://blog.csdn.net/RiverCode/article/details/60351181

版权

这篇博客通过一个小型案例详细介绍了如何在Spark中使用textFile读取文件，flatMap拆分单词，map转换元素，groupByKey进行分类，最后用collect收集结果。案例代码展示了如何处理README.md文件的内容，并通过foreach打印最终分类结果。

摘要由CSDN通过智能技术生成

1.通过textFile读取文件

sc.textFile("E:\\spark-2.1.0\\spark-2.1.0\\README.md")

2.通过flatMap、split分隔单词

flatMap(_.split(" "))

3.通过map使一元元素变成二元元素

map((_,1))

4.通过groupBykey分类

val group = sc.textFile("E:\\spark-2.1.0\\spark-2.1.0\\README.md")
      .flatMap(_.split(" ")).map((_,1)).groupByKey()

    val groupcl = group.collect()

    println(groupcl)  // [Lscala.Tuple2;@78d2b5cf

    groupcl.foreach(println)

结果为：

5.注意

输出groupcl结果为：[Lscala.Tuple2;@78d2b5cf，要想输出想要的根据groupByKey的结果需要使用groupcl.foreach(println)输出。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

RiverCode

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark sc.textFile(...).map(...).count() 执行完整流程

allwefantasy的专栏

01-22

1407

本文介绍下Spark 到底是如何运行sc.TextFile(...).map(....).count() 这种代码的，从driver端到executor端。引子今天正好有人在群里问到相关的问题，不过他的原始问题是：我在RDD里面看到很多 new MapPartitionsRDD[U, T](this, (context, pid, iter)...

Spark::groupByKey和reduceBykey 和collect

weixin_48109576的博客

08-14

207

groupByKey和reduceByKey都具有shuffle 都是聚合操作 reduceByKey:具有预聚合,在局部聚合时将value进行相加或者指定操作, groupByKey:局部聚合时不指定value操作. reduceBykey相对groupByKey减少了网络传输 collect测试环境源码注解中显示,将结果返回到Driver端,collect如果返回数据太大会报错. ...

参与评论您还未登录，请先登录后发表或查看评论

spark collect遍历

热门推荐

跟我一起去征服

05-03

1万+

spark collect操作的特点是从远程集群是拉取数据到本地，经过网络传输，如果数据量的话，会给网络造成很大的压力，和foreach的却别是，foreach是在远程集群上遍历rdd中的元素，如果是在本地的话，差别不大。建议使用foreach，不要用collect. 直接上代码： @SuppressWarnings("unchecked") public static vo

Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect

weixin_30920853的博客

01-22

首先以spark的本地模式测试spark API，以local的方式运行spark-shell：先从parallelize入手吧： map操作后结果：下面看下 filter操作： filter执行结果：我们用最正宗的scala函数式编程的风格：执行结果：从结果可以看出来，与之前那种分步...

spark DataFrame使用collection()方法和groupBy()、isDefined

Buevara的博客

04-19

1428

collect() 把 dataframe格式转化为 Array[Row]格式以movieLens数据前7行位例 userdata.show() 部分数据展示： +------+-------+------+----------+ |userId|movieId|rating| timestamp| +------+-------+------+----------+ | 1| 2| 3.5|1112486027| | 1| 29| 3.5|111248467

java spark map函数,spark map & flatmap function

weixin_29378273的博客

03-13

666

本篇我们介绍一些spark流式计算的基础概念，并实现一个例子加以说明。spark streamingspark streaming 是以spark为核心的流式处理框架，内部通过批处理的方式对数据加以加工。工作方式：生态： Dstream:a DStream is represented as a sequence ofRDDs. map和flatmap任何数据在spark中都表示为RDD。ma...

Spark中的map、flatMap、mapToPair

qq_39674417的博客

12-20

785

目录 mapToPairs spark的RDD操作 spark的flatMap flatMap 很显然每一行都按照空格拆分成了三行，因此总行数是拆分前的三倍，第一行的内容只剩下原第一行的第一个数据，时间。这样flatMap的作用就很明显了 spark的map mapToPairs scala版本 scala是没有mapToPair函数的，scala版本只需要map就可以了,只有Java才有！！！！！ scala> val lines = sc.textFile("/spark.

Spark基础03 RDD算子02 转换算子案例 distinct groupByKey flatMap sortByKey join mapValues reduce fold

湖中屋的博客

07-26

193

RDD distinct 全局去重改变分区 /** distinct 去除重复数据是一个转换算子全局去重改变分区 */ object DistinctDemo { def main(args: Array[String]): Unit = { val sc: SparkContext = SparkUtils.getSparkContext val seq = Seq(1, 2, 4, 5, 66, 66, 6, 5, 77, 77) //转换成RDD val rdd: RDD[Int]

Spark算子：RDD基本转换操作map、flatMap

chen

12-29

1万+

import org.apache.spark._ object rdd_test { System.setProperty("hadoop.home.dir", "C:\\hadoop_home\\") def main(args: Array[String]) { /* * Spark算子：RDD基本转换操作之 map、flatMap、

wordcount（conf配置，SparkContext，sc.textFile，flatmap，maptopair，reducebykey，sortbykey,foreach）【Java版纯代码】

wyqwilliam的博客

07-20

369

package com.bjsxt.scala; import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spar...

spark RDD编程第3关：求平均值

weixin_44686879的博客

10-22

6710

任务描述本关任务：编写Spark独立应用程序实现求平均值。相关知识为了完成本关任务，你需要掌握：RDD的创建；RDD的转换操作；RDD的行动操作。 RDD的创建使用textFile()方法从本地文件系统中加载数据创建RDD，示例如下： val lines = sc.textFile("file:///home/hadoop/word.txt") 执行sc.textFile()方法以后，Spark从本地文件word.txt中加载数据到内存，在内存中生成一个RDD对象lines，这个RDD里

Spark编程实训

Failyell的博客

03-24

2949

实训1：统计文本中性别为“男”的用户数训练要点（1）读取数据创建RDD。（2）通过filter操作过滤数据，filter的函数判断数据是否包含“男”字符，可用“contains”方法。（3）用count对步骤（2）的结果进行统计，得到行数 import org.apache.spark.{SparkConf, SparkContext} object SparkPi { def main(args: Array[String]): Unit = { val conf = new

【spark实训】-- Scala实现单词计数

一只大数据专业的傻猪猪

04-01

8768

spark--Scala实现单词计数

RDD编程：文件数据读取

TSY_1222的博客

07-16

3391

一、文件数据读写 1、本地文件系统的数据读写（1）、从文件中读取数据创建RDD（采用textFile()方法） textFile()方法提供一个本地文件地址或者本地目录地址。如果是本地文件地址，则加载该文件；如果是本地目录地址，则加载该目录下的所有文件的数据。（2）、把RDD写入到文本文件中（采用saveAsTextFile()方法） saveAsTextFile()中的参数是...

Spark 算子之groupBy使用

congge_study的博客

04-22

4601

Spark 算子之groupBy使用

Scala中的流程（包括：sc.textfile=>flatmap=>map=>reduceByKey等阶段，以及输出分区的个数）【Scala纯代码】

wyqwilliam的博客

07-21

1941

package com.bjsxt.spark import org.apache.spark.SparkConf import org.apache.spark.SparkContext object map { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("test"...

spark学习笔记1

rona1的博客

04-04

471

pyspark命令练习：textFile = sc.textFile(“README.md”)创建一个RDDtextFile.count()返回元素个数textFile.first()返回第一个元素linesWithSpark = textFile.filter(lambda line: “Spark” in line)过滤元素textFile.filter(lambda line: “Spark...

Scala in Spark 基本操作【未完】

power0405hf的专栏

11-29

2633

[Apache Spark大数据分析入门（一）(http://www.csdn.net/article/2015-11-25/2826324)spark 笔记 5: SparkContext，SparkConfspark读取hbase Scala 强大的集合数据操作示例 spark中的一些RDD操作以及变换# 创建textFileRDD val textFile = sc.textFile("REA

spark实现wordcount案例