Spark编程指南入门之Java篇一-基本知识

最新推荐文章于 2024-07-26 07:45:00 发布

煉心_

最新推荐文章于 2024-07-26 07:45:00 发布

阅读量2.6w

点赞数 5

分类专栏： Spark 文章标签： Spark

本文链接：https://blog.csdn.net/gangchengzhong/article/details/53694815

版权

本文是Spark编程的Java入门指南，主要介绍Spark的基本概念和使用方法。通过学习，读者将掌握如何在Java中搭建Spark环境，创建Spark应用，并理解RDD和DataFrame的操作。此外，还会探讨Spark的并行计算模型以及数据转换与操作。

摘要由CSDN通过智能技术生成

1. Spark的Java开发包

Spark提供Java的开发包，当前最新版本是2.0.2版本：spark-core_2.11-2.0.2.jar，可以从下面链接下载：

http://central.maven.org/maven2/org/apache/spark/spark-core_2.11/2.0.2/spark-core_2.11-2.0.2.jar

或者通过Maven配置：

<dependency>
    <groupId>org.apache.spark</groupId>
	<artifactId>spark-core_2.11</artifactId>
	<version>2.0.2</version>
</dependency>

* Spark 2.0.2版本需要Java 7或以上，本文使用Java 1.8.0_72版本

2. 初始化Spark

要使用Spark，第一步必须创建JavaSparkContext对象：

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

public class HelloSpark {
	
	public static void main(String[] args) {
		SparkConf conf = new SparkConf(