spark-通过StructType直接指定Schema

最新推荐文章于 2023-04-13 14:34:08 发布

fanbest325

最新推荐文章于 2023-04-13 14:34:08 发布

阅读量4.7k

点赞数

分类专栏： spark sql

spark sql 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

[java]view plaincopy 
   
 package cn.itcast.spark.sql  
   
 import org.apache.spark.sql.{Row, SQLContext}  
 import org.apache.spark.sql.types._  
 import org.apache.spark.{SparkContext, SparkConf}  
   
 /** 
   * Created by ZX on 2015/12/11. 
   */  
 object SpecifyingSchema {  
   def main(args: Array[String]) {  
     //创建SparkConf()并设置App名称  
     val conf = new SparkConf().setAppName("SQL-2")  
     //SQLContext要依赖SparkContext  
     val sc = new SparkContext(conf)  
     //创建SQLContext  
     val sqlContext = new SQLContext(sc)  
     //从指定的地址创建RDD  
     val personRDD = sc.textFile(args(0)).map(_.split(" "))  
     //通过StructType直接指定每个字段的schema  
     val schema = StructType(  
       List(  
         StructField("id", IntegerType, true),  
         StructField("name", StringType, true),  
         StructField("age", IntegerType, true)  
       )  
     )  
     //将RDD映射到rowRDD  
     val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1).trim, p(2).toInt))  
     //将schema信息应用到rowRDD上  
     val personDataFrame = sqlContext.createDataFrame(rowRDD, schema)  
     //注册表  
     personDataFrame.registerTempTable("t_person")  
     //执行SQL  
     val df = sqlContext.sql("select * from t_person order by age desc limit 4")  
     //将结果以JSON的方式存储到指定位置  
     df.write.json(args(1))  
     //停止Spark Context  
     sc.stop()  
   }  
 }  

将程序打成jar包，上传到spark集群，提交Spark任务

/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-submit \

--class cn.itcast.spark.sql.InferringSchema \

--master spark://node1.itcast.cn:7077 \

/root/spark-mvn-1.0-SNAPSHOT.jar \

hdfs://node1.itcast.cn:9000/person.txt \

hdfs://node1.itcast.cn:9000/out1

查看结果

hdfs dfs -cat hdfs://node1.itcast.cn:9000/out1/part-r-*

fanbest325

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
spark-通过StructType直接指定Schema

[java] view plain copypackage cn.itcast.spark.sql import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types._ import org.apache.spark.{SparkContext,
复制链接

扫一扫

专栏目录