七.SparkSQL之Dataset实战演练

一.概述
Dataset是一个分布式的数据集,并且是spark1.6版本的新接口,有点就是强类型,支持lambda表达式,还提供了SparkSQL优化的执行引擎的优点.
在这里插入图片描述
解释:

针对SQL而言:
    seletc name from person;  写错select 但是编译(compile)还是过的,运行时出错

针对DF而言:
    df.seletc("name") select 写错编译(compile)直接就报错了
    df.select("nname") 属性名写错,但是编译(compile)是好的,只是在运行的时候才会报错

针对DS而言:
    ds.map(line => line.itemidd)  里面的itemid写错直接编译(compile)就会报错

二.示例演示

 import org.apache.spark.sql.SparkSession
object DataSetApp {
  def main(args: Array[String]){
  val spark = SparkSession.builder().appName("DataSetApp").master("local[2]").getOrCreate()
  import spark.implicits._
  // csv 方法返回的是DataFrame类型的数据 第一个option是解析头文件

val df = spark.read.option(“header”,“true”).option(“interSchema”,“true”).csv(“sales.csv”)
df.show()
在这里插入图片描述

//df转换为ds,但是要指定类型,因此传入了Sales
val ds = df.as[Sales]
//输出itemId哪一行数据的内容
ds.map(line => line.itemId).show()
在这里插入图片描述

  spark.stop()

}
case class Sales(transactionId:String,customerId:String,itemId:String,amountPaid:String)
}

三.常见错误
Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.
解决方法就是导入隐式函数即可:

import spark.implicits._

详细资料参考   SparkSQL之Dataset

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值