sparksql-1.sparksql的schema和udf

最新推荐文章于 2023-09-28 11:08:51 发布

JackieChen1992

最新推荐文章于 2023-09-28 11:08:51 发布

阅读量825

点赞数

分类专栏： sparksql spark scala 文章标签： sparksql udf schema json

本文链接：https://blog.csdn.net/cshichunhua/article/details/79214857

版权

1.spark根据schema读取json数据进行sparksql操作

   注意：读取json数据，特别是数据量比较大的json数据，需要定义schema，减少读取的数据量，不然加载太多数据浪费集群资源，而且太浪费时间，吃力不讨好。 
 
 
  
 
 

   1）定义schema 
 
 
  import 
  org.apache.spark.sql.types.{StructField, _} 
 
 
   val 
   logSchema = StructType( 
   Array 
   ( 
  
 
       StructField 
   ( 
   "data" 
   ,StructType( 
   Array 
   ( 
  
 
           StructField 
   ( 
   "org_token" 
   ,StringType, 
   true 
   ), 
  
 
           StructField 
   ( 
   "text" 
   ,StringType, 
   true 
   ) 
  
 
       )), 
   true 
   ), 
  
 
       StructField 
   ( 
   "result" 
   ,StructType( 
   Array 
   ( 
  
 
           StructField 
   ( 
   "rule-engine" 
   ,StructType( 
   Array 
   ( 
  
 
               StructField 
   ( 
   "riskLevel" 
   ,StringType, 
  

最低0.47元/天解锁文章

JackieChen1992

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
sparksql-1.sparksql的schema和udf

1.spark根据schema读取json数据进行sparksql操作注意：读取json数据，特别是数据量比较大的json数据，需要定义schema，减少读取的数据量，不然加载太多数据浪费集群资源，而且太浪费时间，吃力不讨好。1）定义schemaimportorg.apache.spark.sql.types.{StructField, _}vallogSche
复制链接

扫一扫

专栏目录