pyspark读取csv文件时处理数据跨行问题

最新推荐文章于 2024-07-12 16:16:27 发布

山渐青_

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量144

点赞数 3

分类专栏： Python从零开始文章标签：开发语言 python

本文链接：https://blog.csdn.net/nhdzppx/article/details/137601489

版权

Python从零开始专栏收录该内容

5 篇文章 0 订阅

订阅专栏

from pyspark.sql import SparkSession
from pyspark.sql.functions import regexp_replace

source_path = r"你的文件.csv"

spark = SparkSession.builder.appName("multilinestring").getOrCreate()

lz_df = spark.read.option("header", "true") \
    .option("multiLine", "true") \
    .option("quote", "\"") \
    .option("escape", "\"") \
    .option("delimiter", ",") \
    .format("csv") \
    .load(source_path)
for columns in lz_df.columns:
    lz_df = lz_df.withColumn(columns, regexp_replace(lz_df[columns], "\n", ""))