idea用spark本地操作hdfs集群

最新推荐文章于 2022-05-04 17:11:15 发布

目录哥

最新推荐文章于 2022-05-04 17:11:15 发布

阅读量3.9k

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/doujiayun3939/article/details/84066819

版权

本文介绍了如何在Windows环境中使用Spark本地模式便捷地读取远程Hadoop集群的HDFS数据，以实现快速调试。在调试过程中可能遇到的端口问题、权限问题、兼容性问题和配置问题等，文中给出了相应的解决方案，包括设置HADOOP_USER_NAME环境变量、调整目录权限、更新Spark作业创建方式以及配置YARN和HDFS参数。

摘要由CSDN通过智能技术生成

在windows开发机上使用spark的local模式读取远程hadoop集群中的hdfs上的数据，这样的目的是方便快速调试，而不用每写一行代码或者一个方法，一个类文件都需要打包成jar上传到linux上，再扔到正式的集群上进行测试，像功能性验证直接使用local模式来快速调测是非常方便的，当然功能测试之后，我们还需要打包成jar仍到集群上进行其他的验证比如jar包的依赖问题，这个在local模式是没法测的，还有集群运行的调优参数，这些都可以在正式仍到集群时验证。

<dependency>
  <groupId>org.scala-lang</groupId>
  <artifactId>scala-library</artifactId>
  <version>2.11.8</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-client</artifactId>
  <version>2.7.2</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-hdfs</artifactId>
  <version>2.7.2<