spark 和hadoop的 hdfs 整合（spark sql 找不到文件）

最新推荐文章于 2023-03-31 00:45:00 发布

不許人間見白頭

最新推荐文章于 2023-03-31 00:45:00 发布

阅读量2k

点赞数

分类专栏： spark 文章标签： hadoop spark sparksql

本文链接：https://blog.csdn.net/lb876864380/article/details/80330172

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

初学spark 的时候在 spark shell窗口类里面操作以下代码对hdfs 的文件进行操作的时候会出现找不到文件的错误

val lineRDD= sc.textFile("/person.txt").map(_.split(" "))

【此处不配图了】

原因是spark 没有配置hadoop 相关的参数。

在spark-env.sh 中添加HADOOP_CONF_DIR配置，指明了hadoop的配置文件(所那个文件夹, 一般在hadoop安装目录下的etc/hadoop中 )，默认它就是使用的hdfs的文件系统, 使用其他文件系统的时候就要声明好.

export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.4/etc/hadoop

要使用本地文件系统的时候要配置路径 file：///本地路径

另外使用前还要注意一定要启动hdfs 才行。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不許人間見白頭

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

weixin_43646592的博客

05-31

4962

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

【Spark-HDFS小文件合并】使用 Spark 实现 HDFS 小文件合并

weixin_53543905的博客

12-26

1497

需求描述：1、使用 Spark 做小文件合并压缩处理。2、实际生产中相关配置、日志、明细可以记录在 Mysql 中。3、core-site.xml、hdfs-site.xml、hive-site.xml、yarn-site.xmlx 等文件放在项目的 resources 目录下进行认证。4、下面的案例抽取出了主体部分的代码，具体实现时需要结合 HDFS 工具类，利用好 Mysql 做好配置、日志、以及相关明细，结合各自业务进行文件合并。 2）代码实现 2.1.HDFSUtils 2.2.MergeFile

参与评论您还未登录，请先登录后发表或查看评论

Spark查询Hive表时没有权限及无法找到表

_北海岸的蔚蓝

08-16

6138

用spark-submit执行python文件，进行hive表的操作时，会出现报错： java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx------

spark-shell命令读取HDFS文件时文件不存在

WB231444的博客

01-17

3006

先执行jps检查hadoop集群有没有正常启动检查HDFS路径是否正确或文件夹的读写权限。注意： hdfs路径类似hdfs://localhost:9000/license.txt，千万不能直接写成/user/root/路径，否则就是读取本地路径（需要绝对路径）如果集群在虚拟机里，就要用相应的ip地址 ...

为什么Spark在运行代码的时候拉取本地文件报错hdfs上不存在

别人笑我太疯癫，我笑他人看不穿。

02-28

674

你看一下你的运行环境是不是配置HADOOP_HOME，或者配置文件中配置了yarn关联，如果有那么你要在你的路径前面叫上file:/// 不然Spark会把路径自动变成hdfs的路径的

spark例子无法读取到hadoop的hdfs的文件

qq_18304615的博客

08-30

1814

原因是zookeeper没有启动zkServer.sh start

为什么spark读取本地的json文件会自动去hdfs上去找？读取不到本地的文件

ynyeel的博客

08-03

575

问题描述遇到的问题如上图所示：我在spark中读取的json文件明明是集群本地的文件，可是他偏偏就自作聪明去了hdfs上面去找我的文件！！那肯定会报错啊！！！我hdfs上怎么可能有这个文件嘛！！！原因：我在spark中的运行环境配置了yarn关联，如下所示：修改了spark-env.sh，添加如下配置： YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop 那么Spark会把路径自动变成hdfs的路径的，就会去hdfs上面找！！！解决办法要在你的

大数据课程的期末项目基于spark、hadoop hdfs、mongodb，使用scala，进行电影推荐+源代码+文档说明

12-16

本次项目基于Python爬虫与Movielens数据集作为数据来源，获取CSV格式的数据，使用Hadoop HDFS作为数据的分布式存储平台，使用MongoDB作为数据结构化、规范化的处理并对运算结果进行存储，使用Spark暴露对外SQL接口，...

人工智能-hadoop-基于hdfs spark的视频非结构化数据计算

最新发布

03-14

现有的大数据平台Hadoop、Spark等都在处理文本数据方面具有很好的支持，并且效率也经过了各种优化，所以在利用分布式框架来处理日志类数据，工作难度往往是如何对这些数据进行逻辑上的处理。但是对于非结构化数据，...

sparkStreaming 写入 hdfs

qq_38250124的博客

08-07

3068

1.saveAsTextFile value.repartition(1).map(_.mkString(",")).foreachRDD(rdd => { rdd.saveAsTextFile("hdfs://localhost:8020/log/" + System.currentTimeMillis()) saveAsTextFile不支持追加。如果使用固定文件名调用，则每次都会覆盖它。我们每次都可以saveAsTextFile(path+timestamp(System.cur

Spark连接Hadoop读取HDFS问题小结

架构设计

09-12

434

Spark与hadoop版本我使用0.7.2的Spark版本，且是pre-built过的版本，支持的hadoop版本是hadoop1。在http://spark-project.org/files/上能下载的预编译过的spark版本里，凡是预编译cdh4的压缩包，下载后解压会中断，文件本身有问题。我在google论坛上发帖说明了这个问题：https://groups.google.com/fo...

执行sparksql时报错，显示查询不到表分区下的子分区

weixin_42320809的博客

08-23

534

报错如图解决办法：添加开启文件递归查询的参数 set hive.mapred.supports.subdirectories=true; set mapreduce.input.fileinputformat.input.dir.recursive=true;

[已解决]Spark执行wordcount找不到文件

雷神乐乐的博客

03-31

432

[已解决]Spark执行wordcount找不到文件

hive下的hdfs文件删除了， spark做汇总，报InvalidInputException: Input path does not exist

dengwei_dw的专栏

06-05

522

删除了hive的分区文件，但是hive的分区未删除，导致spark汇总报错。解决办法： show partitions t_name; hadoop fs -ls /user/hive/warehouse/t_name/end_day=xxx/end_time_hour=xxx 做比较，将删除的文件对应的分区删除。 alter table t_name drop partition (end_day=20200604,end_time_hour=0); 重新执行spark汇总即可。 ..

SparkSQL实战1——先从Hadoop开始说起

于占胜的博客

03-01

655

1、Hadoop概述广义的Hadoop，指的是Hadoop生态系统，Hadoop生态系统是一个很庞大的概念，狭义的Hadoop指的是Hadoop框架，Hadoop框架是Hadoop生态系统最重要最基础的一个部分，生态系统中的每一子系统只解决某一特定的问题域，不搞统一型的全能系统，而是小而精的多个小系统。 Flume：日志收集工具，它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为...

spark-shell运行时找不到hadoop native库

nazenmehaoyisi的博客

10-02

1386

启动时候报错： NativeCodeLoader: Unable to load native-hadoop library for your platform... 通过hadoop checknative命令检查hadoop native库可以找到，并且用file命令可以检查是64位的，实际上hdfs已经启动，应该是spark的问题，还怀疑过是否版本不对最后发现，需要通过$

记录CDH Spark2的spark2-submit的一个No such file or directory问题

crazy_stone0002的博客

03-02

888

运行: 在测试的CDH Spark2, 运行spark streaming，命令如下：点击(此处)折叠或打开 spark2-submit ...

spark如何解决文件不存在_Spark运行命令报路径找不到文件错

weixin_35779309的博客

12-31

2221

像陈老师在视频中一样执行下述的命令，直接报找不到路径，我应该怎么设置才能让这个Spark找到我的主机路径呢？就是都在同一台机器上的。scala> sqlContextres1: org.apache.spark.sql.SQLContext = org.apache.spark.sql.hive.HiveContext@47ffce5dscala> sqlContext.readres...

tensorflow2.0 load_data()的存储路径

兰君

12-28

4557

如：(train_image,train_lable),(test_image,test_label)=tf.keras.datasets.fashion_mnist.load_data() 下载的数据存储在该路径下：C:\Users\L\.keras\datasets，其中标红部分为自己的用户名，如果自己有数据可以将数据拷贝到该文件夹下，程序就不会再重复下载该数据了 ...

Hadoop生态系统详解：从HDFS到Spark

本文主要介绍了Hadoop及其生态系统中的关键组件，包括HDFS、MapReduce、YARN以及相关的数据处理框架如Hive、Hbase、Spark等，并对比了MapReduce批处理架构与Samza流处理架构。 Hadoop是分布式计算领域的基石，其...