dask读取hdfs文件时报错connect hdfs error

lytcreate.

于 2024-04-03 15:08:57 发布

阅读量320

点赞数 6

分类专栏： Linux 问题记录 Python 文章标签： python 服务器 linux pandas

本文链接：https://blog.csdn.net/qq_35204012/article/details/137346310

版权

Python 同时被 3 个专栏收录

57 篇文章 1 订阅

订阅专栏

Linux

31 篇文章 0 订阅

订阅专栏

问题记录

31 篇文章 0 订阅

订阅专栏

问题详情：

/arrow/cpp/src/arrow/filesystem/hdfs.cc:51: Failed to disconnect hdfs client: IOError: HDFS hdfsFS::Disconnect failed, errno: 9 (Bad file descriptor)
Traceback (most recent call last):
File "/home/tdops/fucheng.pan/ray-code/read.py", line 15, in
print(fs.FileSystem.from_uri("hdfs:"))
File "pyarrow/_fs.pyx", line 347, in pyarrow._fs.FileSystem.from_uri
File "pyarrow/error.pxi", line 122, in pyarrow.lib.pyarrow_internal_check_status
File "pyarrow/error.pxi", line 99, in pyarrow.lib.check_status
OSError: HDFS connection failed

dask及相关库的版本如下：

pyarrow                   15.0.2
dask                      2024.4.0
dask-expr                 1.0.6
fsspec                    2024.3.1

解决办法：

先将 fsspec 降至 2022.8.2 版本，如果再不行，将pyarrow降至 7.0.0 解决

相关解决原文：https://github.com/apache/arrow/issues/29187

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lytcreate.

关注关注

6
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
dask读取hdfs文件时报错connect hdfs error

先将 fsspec 降至 2022.8.2 版本，如果再不行，将pyarrow降至 7.0.0 解决。
复制链接

扫一扫

专栏目录

使用python-pyhdfs连接hdfs时报错

guoguopython的博客

04-03

3299

ConnectionError: HTTPConnectionPool(host='a', port=50075): Max retries exceeded with url: /webhdfs/v1/logs/pv?op=OPEN&user.name=root&namenoderpcaddress=hdfscluster&offset=0 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x0000

windows 平台上使用 pyarrow 连接 hdfs 详细教程

记录与思考

02-21

1338

windows平台上使用pyarrow连接至hdfs详细教程。

参与评论您还未登录，请先登录后发表或查看评论

【Hadoop】Hadoop/Yarn中hdfs与mapreduce相关问题汇总

zwan0518的专栏

06-24

5409

在hadoop启动的时候，会出现各种各样的问题，NameNode，JobTracker等各个模块都会有莫名奇妙的问题出现，在这里对hdfs的问题进行一下简单的记录 1：HDFS initialized but not 'healthy' yet, waiting... 这个日志会在启动hadoop的时候在JobTracker的log日志文件中出现，在这里就是hdfs出现问题，导致DataNod

操作hdfs 报错拒绝连接解决方法

weixin_55501516的博客

10-21

5599

ls: Call From Master/192.168.14.54 to Master:8020 failed on connection exception: java.net.ConnectException: 拒绝连接; appendToFile: Call From Master/192.168.14.54 to Master:9000 failed on connection exception: java.net.ConnectException: 拒绝连接; 诸如此类问题， sto..

python简单读取大文件的方法

09-21

- **使用数据库或专门的数据处理库**：对于结构化数据，可以考虑使用数据库（如SQLite）或者数据处理库（如Pandas、Dask）来更高效地处理大文件。 6. **性能优化**： - 使用`utf-8-sig`编码读取包含BOM（Byte ...

xgrads：解析和读取GrADS常用的ctl文件

02-04

此python软件包专门用于解析和读取常用的.ctl文件。现在，它可以解析各种.ctl文件。然而，只有常用原始二进制数据集4D可以使用读和返回作为其它类型的二进制数据，如dtype是station或者grib ，可能在将来被支持。...

dask-scaling-dataframe:Python和Dask

03-10

Python和Dask：扩展DataFrame 该存储库包含有关Python和Dask的幻灯片，练习和答案：缩放数据框。本教程的目标是教给您一个在熊猫中处理表格数据方面经验丰富的人，以解决不适合在一台计算机上存储的问题。为什么...

python实现读取大文件并逐行写入另外一个文件

09-20

然而，为了提高效率和降低内存占用，可以考虑使用缓冲区（如`io.BufferedReader`）或第三方库（如`pandas`或`Dask`）来处理大文件。总的来说，Python提供了灵活而强大的文件操作功能，可以根据具体需求选择合适的...

dask-sql：使用Dask的Python中的分布式SQL引擎

02-06

dask-sql dask-sql在dask之上添加一个SQL查询层。这使您可以使用常见SQL操作来查询和转换dask数据框。查询将作为常规的dask操作运行，这些操作可以分布在dask群集中。因此，该项目的目标类似于Hadoop世界中的...

ModuleNotFoundError: No module named ‘fsspec.archive‘

世上再无张显宗

02-21

1313

解决bug

hadoop 其中一个datanode 启动失败： Structure needs cleaning 文件夹损坏

qq_37670707的博客

02-25

3087

2019-02-25 10:04:29,090 INFO org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl: Caught exception while scanning /home/warehouse/hadoop-2.7.1/tmp/dfs/data/current. Will throw later. E...

pandas中出现错误的解决办法：OSError: Initializing from file failed

fuyun6363的博客

01-02

893

原因：pandas不支持读路径或文件名中包含中文的csv/txt文件的解决办法：先open(“文件”)，在read_csv(f)或read_table(f) f = open("D:\GoogleDownloads\临时文件\idfa_info.txt") idfa1 = pd.read_table(f, sep='\t') 在read_csv()或read_table()函数中添加参...

成功解决OSError: dlopen() failed to load a library: cairo / cairo-2 / cairo-gobject-2 / cairo.so.2

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

05-15

1万+

成功解决OSError: dlopen() failed to load a library: cairo / cairo-2 / cairo-gobject-2 / cairo.so.2 目录解决问题解决思路解决方法解决问题 raise OSError("dlopen() failed to load a l...

Hadoop常见错误之HDFS