目录
3.2、 从HDFS/本地 上获取数据(因为获取的光是数据,所以需要额外创建schema)
一、学习Spark SQL必要性
Hive虽然简化了编写mapreduce的流程,但是有一个致命的缺点 慢!
所以Spark SQL应运而生,它是将Spark SQL转换成RDD,然后提交到集群中去运行,执行速度大大提升
二、SparkSQL的几大特点
易整合
将spark代码和Sql完美融和
统一的访问形式
在代码中进行非常简单的编写就可以访问各种数据源
兼容Hive
兼容hive意味着我们可以使用Hive中所有的语法