spark2.x版本RDD转SchemaRDD无法成功的解决方法

最新推荐文章于 2023-04-13 14:34:08 发布

monkey-jie

最新推荐文章于 2023-04-13 14:34:08 发布

阅读量518

点赞数 1

分类专栏： Spark 文章标签： sqark SQL

本文链接：https://blog.csdn.net/qq_40663357/article/details/84331642

版权

Spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近在学spark SQL，在spark shell上运行官方文档的最简单的一个例子，在import sqlContext.createSchemaRDD时，却出现了这个问题：

error: value createSchemaRDD is not a member of org.apache.spark.sql.SQLContext

当时就很纳闷，还以为是我的拼写或者大小写有误，但是我核对了几遍，发现并没有拼写错误，然后就开始百度（真心吐槽百度这个垃圾搜索引擎，无奈英文不好，用不惯谷歌），当然，结果是百度无果，最后在谷歌找到了答案。

import sqlContext.createSchemaRDD改为
import sqlContext.implicits._

至于原因是在spark1.3以后spark SQL取消了createSchemaRDD，改为了implicits。但是那个spark编程指南就很坑了，版本太老，一直不更新，，emmm。吐槽完毕，上代码和解析。忘记截图了，无奈集群已经关了，懒得打开了。

1、通过反射得到模式
// 用已有的Spark Context对象创建SQLContext对象
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
// 导入语句，可以隐式地将RDD转化成DataFrame
import sqlContext.implicits._
// 创建一个表示客户的自定义类
case class People(name: String, age: Int)
// 用数据集文本文件创建一个People对象的DataFrame
val dfPeople = sc.textFile("hdfs://ns1/data/people.txt").map(_.split(",")).map(p => People(p(0), p(1).trim.toInt)).toDF()
//在这里加了个toDF()方法是把dfpeople转为了dataframe
// 将DataFrame注册为一个表
dfPeople.registerTempTable("people")
// 显示DataFrame的内容
dfPeople.show()
// 打印DF模式
dfPeople.printSchema()
// 选择名称列
dfPeople.select("name").show()
// 选择名称和年龄
dfPeople.select("name", "age").show()
// 根据年龄选择
dfPeople.filter(dfPeople("age").equalTo(33)).show()
dfPeople.where(dfPeople("age")>50).show()
dfPeople.where(dfPeople("age")>30).where(dfPeople("age")<60).show()
dfPeople.where(dfPeople("age")>30).where(dfPeople("age")<60).count()
dfPeople.groupBy("age").count().show()

2、通过编程的方式指定数据集的模式
// 用字符串编码模式
val schemaString = "name age"
// 导入Spark SQL数据类型和Row
import org.apache.spark.sql._
import org.apache.spark.sql.types._;
// 用模式字符串生成模式对象
val schema = StructType(schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, true)))
// 将RDD（rddPeople）记录转化成Row。
val rowRDD = rddPeople.map(_.split(",")).map(p => Row(p(0).trim,p(1)))
// 将模式应用于RDD对象。
val people = sqlContext.createDataFrame(rowRDD, schema)
// 将DataFrame注册为表
people.registerTempTable("people")
//查询名称
val peopleNames = sqlContext.sql("SELECT name FROM people")
//查询名称
peopleNames.map(t => "Name: " + t(0)).collect().foreach(println)
//查询名称和年龄
val peoplemsg = sqlContext.sql("SELECT name,age FROM people ORDER BY age")
//查询名称和年龄
peoplemsg.map(t => t(0) + "," + t(1)).collect().foreach(println)

spark SQL小小的采坑日记记录完毕。

monkey-jie

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark2.x版本RDD转SchemaRDD无法成功的解决方法

最近在学spark SQL，运行官方文档的最简单的一个例子，在import sqlContext.createSchemaRDD时，却出现了这个问题：error: value createSchemaRDD is not a member of org.apache.spark.sql.SQLContext当时就很纳闷，还以为是我的拼写或者大小写有误，但是我核对了几遍，发现并没有拼写错误，...
复制链接

扫一扫

专栏目录