JSON是一种常用的数据存储方式。但是JSON解析起来还是比较麻烦的,这里是通过Spark DataFrames处理嵌套Json的一些例子(Spark 版本为 1.6.0)
样本文件 sample.json
{
"user": "gT35Hhhre9m",
"dates": ["2016-01-29", "2016-01-28"],
"status": "OK",
"reason": "some reason",
"content": [{
"foo": 123,
"bar": "val1"
}, {
"foo": 456,
"bar": "val2"
}, {
"foo": 789,
"bar": "val3"
}, {
"foo": 124,
"bar": "val4"
}, {
"foo": 126,
"bar": "val5"
}]
}
假设你已经建立了一个SQLContext对象,下面的例子会给你演示怎么解析嵌套的Json文件。
将JSON文件载入 Spark DataFrame
scala> val df