spark sql原理及使用 基本使用mysql hive rdd转为dataframe
一、spark SQL概述
1.1 什么是spark SQL
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。类似于hive的作用。
1.2 spark SQL的特点
1、容易集成:安装Spark的时候,已经集成好了。不需要单独安装。
2、统一的数据访问方式:JDBC、JSON、Hive、parquet文件(一种列式存储文件,是SparkSQL默认的数据源,hive中也支持)
3、完全兼容Hive。可以将H
转载
2021-01-20 16:03:24 ·
418 阅读 ·
0 评论