sparksql-1.sparksql的schema和udf

最新推荐文章于 2023-02-28 11:11:32 发布

JackieChen1992

最新推荐文章于 2023-02-28 11:11:32 发布

阅读量845

点赞数

分类专栏： sparksql spark scala 文章标签： sparksql udf schema json

本文链接：https://blog.csdn.net/cshichunhua/article/details/79214857

版权

本文介绍了如何使用SparkSQL结合schema高效读取大规模JSON数据，强调了定义schema的重要性，以避免资源浪费。还讨论了在Spark中读取不同数据源（如HDFS上的JSON和Parquet文件，以及HBase表）的方法，并阐述了在SparkSQL中使用Hive UDF的注意事项，包括在spark-shell和Scala工程中的不同操作。

摘要由CSDN通过智能技术生成

1.spark根据schema读取json数据进行sparksql操作

   注意：读取json数据，特别是数据量比较大的json数据，需要定义schema，减少读取的数据量，不然加载太多数据浪费集群资源，而且太浪费时间，吃力不讨好。 
 
 
  
 
 

   1）定义schema 
 
 
  import 
  org.apache.spark.sql.types.{StructField, _} 
 
 
   val 
   logSchema = StructType( 
   Array 
   ( 
  
 
       StructField 
   ( 
   "data" 
   ,StructType( 
   Array 
   ( 
  
 
           StructField 
   ( 
   "org_token" 
   ,StringType, 
   true 
   ), 
  
 
           StructField 
   ( 
   "text" 
   ,StringType, 
   true 
   ) 
  
 
       )), 
   true 
   ), 
  
 
       StructField 
   ( 
   "result" 
   ,StructType( 
   Array 
   ( 
  
 
           StructField 
   ( 
   "rule-engine" 
   ,StructType( 
   Array 
   ( 
  
 
               StructField 
   ( 
   "riskLevel" 
   ,StringType,