Spark 读取CSV 解析单元格多行数值问题

本文探讨了Spark在处理CSV数据时遇到的多行数值解析问题。在Spark 2.2之前的版本中,读取CSV会出现异常,需要通过读取二进制文件作为临时解决方案。而在Spark 2.2及更高版本中,官方修复了这个问题,可以通过设置`multiLine`参数来正确解析多行单元格的CSV文件。
摘要由CSDN通过智能技术生成

CSV 样例数据

[hadoop@ip-10-0-52-52 ~]$ cat test.csv 
id,name,address
1,zhang san,china shanghai
2,li si,"china
beijing"
3,tom,china shanghai

Spark 2.2 以下版本读取 CSV

会存在读取异常问题

scala> val df1 = spark.read.option("header", true).csv("file:///home/hadoop/test.csv")
df1: or
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值