1.spark根据schema读取json数据进行sparksql操作
注意:读取json数据,特别是数据量比较大的json数据,需要定义schema,减少读取的数据量,不然加载太多数据浪费集群资源,而且太浪费时间,吃力不讨好。
1)定义schema
import
org.apache.spark.sql.types.{StructField, _}
val
logSchema = StructType(
Array
(
StructField
(
"data"
,StructType(
Array
(
StructField
(
"org_token"
,StringType,
true
),
StructField
(
"text"
,StringType,
true
)
)),
true
),
StructField
(
"result"
,StructType(
Array
(
StructField
(
"rule-engine"
,StructType(
Array
(
StructField
(
"riskLevel"
,StringType,