Spark 读取CSV 解析单元格多行数值问题

最新推荐文章于 2024-07-04 16:40:38 发布

ice泉

最新推荐文章于 2024-07-04 16:40:38 发布

阅读量3.5k

点赞数 1

分类专栏： spark 文章标签： spark csv multiline

本文链接：https://blog.csdn.net/Agony__X/article/details/78533331

版权

本文探讨了Spark在处理CSV数据时遇到的多行数值解析问题。在Spark 2.2之前的版本中，读取CSV会出现异常，需要通过读取二进制文件作为临时解决方案。而在Spark 2.2及更高版本中，官方修复了这个问题，可以通过设置`multiLine`参数来正确解析多行单元格的CSV文件。

摘要由CSDN通过智能技术生成

CSV 样例数据

[hadoop@ip-10-0-52-52 ~]$ cat test.csv 
id,name,address
1,zhang san,china shanghai
2,li si,"china
beijing"
3,tom,china shanghai

会存在读取异常问题

scala> val df1 = spark.read.option("header", true).csv("file:///home/hadoop/test.csv")
df1: or

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注