Spark：第一个Spark程序（单词统计）

最新推荐文章于 2023-10-14 20:10:26 发布

乔治在哪里

最新推荐文章于 2023-10-14 20:10:26 发布

阅读量740

点赞数 1

分类专栏： spark 文章标签： spark 大数据单词计数

本文链接：https://blog.csdn.net/czr11616/article/details/102234839

版权

本文通过一个单词计数的实例介绍了Spark的基本用法，包括概述、代码实现及测试过程。Spark作为分布式集群计算框架，核心是RDD，程序通常涉及创建、转换和操作RDD的步骤。提供的代码示例展示了如何在Spark中进行单词统计。

摘要由CSDN通过智能技术生成

概述

对于任何一个大数据处理程序，感觉没有一个单词计数的demo总感觉过意不去。
spark作为一个分布式的集群计算框架，其核心为RDD（resilient distribution dataset），即弹性分布式数据集。 整个spark的编程也都是围绕着RDD进行的，大部分情况下的步骤都是：创建RDD -->转换RDD–>操作RDD(action)，下面这个单词计数的demo也是按照这个顺序来的。（注：具体代码在干什么已经在代码的注释中写的很详细了，这里就不再赘述了）

代码

直接上代码：

package org.apache.spark.spark_learning;

import java.util.Arrays;
import java.util.Iterator;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org