spark2 sql读取json文件的格式要求

最新推荐文章于 2024-08-02 21:00:00 发布

about云

最新推荐文章于 2024-08-02 21:00:00 发布

阅读量3.8k

点赞数 1

问题导读

1.spark2 sql如何读取json文件？
2.spark2读取json格式文件有什么要求？
3.spark2是如何处理对于带有表名信息的json文件的?

spark有多个数据源，json是其中一种。那么对于json格式的数据，spark在操作的过程中，可能会遇到哪些问题？
这里首先我们需要对json格式的数据有一定的了解。
json数据有两种格式：
1.对象表示
2.数组表示
二者也有嵌套形式。
比如我们创建一个个人信息的json。

[Plain Text] 纯文本查看复制代码

?

 
      {    "people": [ 
     

{

 
      "name": "aboutyun",

 
      "age": "4"

},

{

 
      "name": "baidu",

 
      "age": "5"

}

]

}

上面是一个比较常见的json。信息我们大致也能看出来：people表示的是表名，后面的内容为表的内容，包含了姓名和年龄。然而我们在使用spark读取的时候却遇到点小问题。上面内容保存为文件people.json，然后上传到hdfs的跟路径，进入spark-shell，读取json文件

[Scala] 纯文本查看复制代码

?

1	`val` `peopleDF` `=` `spark.read.json(` `"/people.json"` `)`

打印schema

[Bash shell] 纯文本查看复制代码

?

1	`peopleDF.printSchema`

这时候我们看到people并不是表名，而age和name也非列明。我们通过

[Scala] 纯文本查看复制代码

?

1	`peopleDF.show`

展示列名

也就是说我们如果带有"people"格式的信息，DataFrame就会被认为是列名。个人认为这是spark不太好的地方，应该可以改进。这里也可以自动读取为表名或则忽略，而不是默认为一个字段名称。

既然目前spark是这么做，那么我们该如何做，才能让spark正确的读取？
我们来尝试下面格式的json文件

[Plain Text] 纯文本查看复制代码

?

[

{

 
      "name": "aboutyun",

 
      "age": "4"

},

{

 
      "name": "baidu",

 
      "age": "5"

}

]

操作是同样的方式

[Scala] 纯文本查看复制代码

?

1	`val` `peopleDF` `=` `spark.read.json(` `"/people.json"` `)`

[Bash shell] 纯文本查看复制代码

?

1	`peopleDF.printSchema`

接着我们来打印数据

[Scala] 纯文本查看复制代码

?

1	`peopleDF.show`

这时候我们看到它能正确的显示数据了。
从上面我们看出spark对于json文件，不是什么格式都是可以的，需要做一定的修改，才能正确读取，相信以后spark会有所改进。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。