Spark SQL
分享Spark SQL学习相关内容,以及在工作中遇到的Spark SQL相关的问题。
程序员X小鹿
前互联网大厂程序员/AIGC爱好者/自由职业2年+
展开
-
Spark SQL(六)—— Spark SQL性能优化
性能调优主要是将数据放入内存中操作。把数据缓存在内存中,可以通过直接读取内存的值来提高性能。在RDD中,使用rdd.cache 或者 rdd.persist来进行缓存,DataFrame 底层是RDD,所以也可以进行缓存。原创 2020-03-13 15:01:06 · 496 阅读 · 0 评论 -
Spark SQL(五)—— Spark SQL数据源
文章目录1. 使用load(加载函数)、save(存储函数)2. Parquet文件2.1 把其他文件转换成Parquet文件2.2 支持Schema合并3. JSON文件4. JDBC4.1 方式一:read.format("jdbc")4.2 方式二:定义Properties类5. Hive5.1 配置Spark SQL支持Hive5.2 使用Spark SQL操作 Hive在Spark S...原创 2020-03-13 01:24:50 · 869 阅读 · 0 评论 -
Spark SQL(一)—— Spark SQL介绍
文章目录1. 什么是 Spark SQL2. 特点3. 为什么要学习Spark SQL4. 核心的概念:表(DataFrame 或 Dataset)1. 什么是 Spark SQLSpark SQL is Apache Spark’s module for working with structured data.Spark SQL是Spark用来处理结构化数据的一个模块。在 Spa...原创 2020-03-12 22:31:08 · 508 阅读 · 0 评论 -
Spark SQL(二)—— DataFrame
文章目录1. 创建DataFrame1.1 方式一:使用 case class 样本类。特点:支持模式匹配。1.2 方式二:使用Spark Session1.3 方式三:直接读取一个带格式的文件:JSON文件2. 操作DataFrame2.1 DSL语句2.2 SQL语句1. 创建DataFrame1.1 方式一:使用 case class 样本类。特点:支持模式匹配。// 1.定义表的sc...原创 2020-03-12 22:57:51 · 187 阅读 · 0 评论 -
Spark SQL(三)—— Dataset
文章目录1. 创建Dataset1.1 方式一:使用序列1.2 方式二:使用JSON数据,将DataFrame转换成Dataset1.3 方式三:使用其他数据2. 操作Dataset2.1 基本操作2.2 多表关联Dataset 是 Spark 1.6 之后,对 DataFrame做的一个封装。为了解决DataFrame缺乏编译时类型安全这个问题。可以把Dataset理解成高级的DataFram...原创 2020-03-12 23:57:24 · 207 阅读 · 0 评论 -
Spark SQL(四)—— Spark SQL中的视图
文章目录视图是一个虚表,不存储数据DataFrame和Dataset都可以创建视图视图的两种类型:普通视图:createTempView,createOrReplaceTempView本地视图,只在当前Session中有效。当创建了一个新的Session,是不能访问到之前的视图的。会报“org.apache.spark.sql.AnalysisException: Ta...原创 2020-03-13 00:36:40 · 3908 阅读 · 0 评论