（一）Spark本地开发环境搭建与远程debug设置

最新推荐文章于 2023-01-19 20:39:57 发布

ping_hu

最新推荐文章于 2023-01-19 20:39:57 发布

阅读量5.1k

点赞数 1

分类专栏： spark 文章标签： spark 环境搭建

本文链接：https://blog.csdn.net/ping_hu/article/details/77513429

版权

本文介绍了如何在本地使用Maven搭建Spark 2.1.1的开发环境，包括创建Scala Maven项目，导入Spark依赖，编写WordCount，打包与上传jar包。此外，还详细阐述了远程调试步骤，如设置SPARK_SUBMIT_OPTS，IntelliJ IDEA的remote debug配置，以及如何在Linux服务器上执行和调试Spark程序。

摘要由CSDN通过智能技术生成

快速看完《Spark大数据处理技术、应用与性能优化》前四章后，对Spark有了一个初步的了解，终于踏出了第一步，现在需要在Spark集群中做些测试例子，熟悉一下开发环境和开发的流程。本文主要总结了如何在本地使用Maven搭建开发环境以及如何进行远程debug。由于采用的Spark是今年5月24号才发布的Spark2.1.1，网上大多数例子都是Spark1.X，因此走了不少弯路，才搭建好开发环境。

一：版本概述

Spark版本：2.1.1
IntelliJ IDEA：2017.1.5
开发环境：mac
测试环境：Linux

二：本地开发环境搭建

1、新建一个Maven项目，archetype选择scala

这里写图片描述

2、导入spark相关包

配置pom.xml，然后Maven自动下载依赖包，Spark2.X已经不提供spark-assembly-1.5.0-hadoop2.4.0.jar 之类的jar包，改成了一些小的jar包，存放在jars目录下。开发的时候可以全部导入jars目录下的jar包，但更方便的是使用maven可以方便的自动导入spark2.1.1开发所需要的包。

<dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.11</artifactId>
      <version>2.1.1</version>

最低0.47元/天解锁文章

ping_hu

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
（一）Spark本地开发环境搭建与远程debug设置

快速看完《Spark大数据处理技术、应用与性能优化》前四章后，对Spark有了一个初步的了解，终于踏出了第一步，现在需要在Spark集群中做些测试例子，熟悉一下开发环境和开发的流程。本文主要总结了如何在本地使用Maven搭建开发环境以及如何进行远程debug。
复制链接

扫一扫

专栏目录