spark2.x版本RDD转SchemaRDD无法成功的解决方法

最近在学spark SQL,在spark shell上运行官方文档的最简单的一个例子,在import sqlContext.createSchemaRDD时,却出现了这个问题:

error: value createSchemaRDD is not a member of org.apache.spark.sql.SQLContext

当时就很纳闷,还以为是我的拼写或者大小写有误,但是我核对了几遍,发现并没有拼写错误,然后就开始百度(真心吐槽百度这个垃圾搜索引擎,无奈英文不好,用不惯谷歌),当然,结果是百度无果,最后在谷歌找到了答案。

import sqlContext.createSchemaRDD改为
import sqlContext.implicits._

至于原因是在spark1.3以后spark SQL取消了createSchemaRDD,改为了implicits。但是那个spark编程指南就很坑了,版本太老,一直不更新,,emmm。吐槽完毕,上代码和解析。忘记截图了,无奈集群已经关了,懒得打开了。

1、通过反射得到模式
// 用已有的Spark Context对象创建SQLContext对象
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
// 导入语句,可以隐式地将RDD转化成DataFrame
import sqlContext.implicits._
// 创建一个表示客户的自定义类
case class People(name: String, age: Int)
// 用数据集文本文件创建一个People对象的DataFrame
val dfPeople = sc.textFile("hdfs://ns1/data/people.txt").map(_.split(",")).map(p => People(p(0), p(1).trim.toInt)).toDF()
//在这里加了个toDF()方法是把dfpeople转为了dataframe
// 将DataFrame注册为一个表
dfPeople.registerTempTable("people")
// 显示DataFrame的内容
dfPeople.show()
// 打印DF模式
dfPeople.printSchema()
// 选择名称列
dfPeople.select("name").show()
// 选择名称和年龄
dfPeople.select("name", "age").show()
// 根据年龄选择
dfPeople.filter(dfPeople("age").equalTo(33)).show()
dfPeople.where(dfPeople("age")>50).show()
dfPeople.where(dfPeople("age")>30).where(dfPeople("age")<60).show()
dfPeople.where(dfPeople("age")>30).where(dfPeople("age")<60).count()
dfPeople.groupBy("age").count().show()
2、通过编程的方式指定数据集的模式
// 用字符串编码模式
val schemaString = "name age"
// 导入Spark SQL数据类型和Row
import org.apache.spark.sql._
import org.apache.spark.sql.types._;
// 用模式字符串生成模式对象
val schema = StructType(schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, true)))
// 将RDD(rddPeople)记录转化成Row。
val rowRDD = rddPeople.map(_.split(",")).map(p => Row(p(0).trim,p(1)))
// 将模式应用于RDD对象。
val people = sqlContext.createDataFrame(rowRDD, schema)
// 将DataFrame注册为表
people.registerTempTable("people")
//查询名称
val peopleNames = sqlContext.sql("SELECT name FROM people")
//查询名称
peopleNames.map(t => "Name: " + t(0)).collect().foreach(println)
//查询名称和年龄
val peoplemsg = sqlContext.sql("SELECT name,age FROM people ORDER BY age")
//查询名称和年龄
peoplemsg.map(t => t(0) + "," + t(1)).collect().foreach(println)

spark SQL小小的采坑日记记录完毕。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值