SparkSQL读取CSV文件

最新推荐文章于 2024-03-18 10:28:01 发布

忘川三途

最新推荐文章于 2024-03-18 10:28:01 发布

阅读量1w

点赞数 2

分类专栏：大数据 SparkSQL

本文链接：https://blog.csdn.net/qq_37004052/article/details/83276261

版权

大数据同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

SparkSQL

2 篇文章 0 订阅

订阅专栏

一、核心代码

   val spark = SparkSession
                    .builder()
                    .master("local[2]")
                    .appName("app")
                    .getOrCreate()
    //读取文件
    val srcDF = spark
                    .read
                    .format("csv")
                    .option("header","true")
                    .option("multiLine", true)
                    .load("file:///C:\\1.csv")

    spark.stop()

二、关键参数

format指定读取csv文件。

header是否指定头部行作为schema。

multiLine在单元格中可能因为字数多有换行，但是不指定这个参数，处理数据时可能会报错。指定这个参数为true，可以将换行的单元格合并为1行。

三、写出csv文件

write.csv("/data/csv")

如果字段内有换行的话，最好对字段进行处理。

translate(jsonData,'\r\n','')
//将字段中换行去掉

优惠劵

忘川三途

关注关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL读取CSV文件

一、核心代码 val spark = SparkSession .builder() .master("local[2]") .appName("app") .getOrCreate() //读取文件 val sr...
复制链接

扫一扫