大数据开发之Spark篇---SparkSQL入门(5)

最新推荐文章于 2022-08-02 05:26:57 发布

码农的世界，你不懂

最新推荐文章于 2022-08-02 05:26:57 发布

阅读量502

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/u010395024/article/details/102838541

版权

Catalog
Catalog是一个抽象类，我们一般用它来对Spark里面的元数据进行操作的，其实现类是CatalogImpl这个类型

我们一般使用catalog是在sparkSession的实例对象里调用的，将返回一个Catalog对象，使用这个对象就可以直接查看元数据了。

val spark = SparkSession.builder().master("local[2]").appName("catalogApp").getOrCreate()
spark.catalog.listTables("doudou_test")

Dataset
我们先来说一下Dataset的历史，在Spark1.0版本的时候，SparkSQL出现了，但那个时候没有DataFrame这个名称而是使用SchemaRDD这个名称，直到Spark1.3版本的时候改名叫做DataFrame了，然后到了Spark1.6版本的时候，Dataset出来了。其主要是为了解决compile-time type safety这个问题，就是强行给DataFrame加多一个泛型。
调用df的as方法，后面跟一个泛型定义好一个case class

def main(args: Array[String]): Unit = {

val spark = SparkSession.builder().master("local[2]").appName("catalogApp").getOrCreate()

import spark.implicits._

case class Schema1(id:Int,name:String,age:Int)

最低0.47元/天解锁文章

码农的世界，你不懂

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据开发之Spark篇---SparkSQL入门(5)

CatalogCatalog是一个抽象类，我们一般用它来对Spark里面的元数据进行操作的，其实现类是CatalogImpl这个类型我们一般使用catalog是在sparkSession的实例对象里调用的，将返回一个Catalog对象，使用这个对象就可以直接查看元数据了。val spark = SparkSession.builder().master("local[2]").appName...
复制链接

扫一扫

专栏目录