什么是Spark
Spark是基于内存计算的大数据并行运行的计算框架,提高了大数据环境下数据处理的实时性
Spark特点
Spark可以部署到Yarn上
Spark可以访问Hadoop中Hdfs文件
Spark是基于Scala语言编写的
SparkSQL
SparkSQL是Spark生态中的一员,作用类似与Hive
SparkSQL的两个组件
SQLContext:Spark Sql提供SQLContext封装Spark中所有关系性功能
DataFrame:DataFrame是一个分布式的,按照命名列的形式组织的数据集合,与关系型数据库中的数据表结构类似
Hive on Spark
把Spark作为Hive的一个计算引擎,把Hive查询作为Spark的任务提交到Spark集群上执行。基于Spark计算引擎,可以Hive能提高性能
参考文章
Hive、Hive on Spark、SparkSQL的区别:https://www.jianshu.com/p/a38215b6395c
java实现sparksql:https://blog.csdn.net/hzs33/article/details/80427758