files = "/data/123.csv.gz"
from hdfs.client import Client
import pandas as pd
# 创建 HDFS 客户端,假设你的 HDFS 地址和端口是 namenode:port
hdfs_client = Client('http://192.168.0.2:50070')
# 指定 HDFS 上的 CSV 文件路径
hdfs_file_path = files
# 使用 HDFS 客户端的 read 方法读取文件内容
with hdfs_client.read(hdfs_file_path) as reader:
df = pd.read_csv(reader, compression='gzip', sep='|')
print(df.head())
注意sep是你的列分隔符