初识Spark

最新推荐文章于 2023-12-13 17:51:36 发布

localhost_rachel

最新推荐文章于 2023-12-13 17:51:36 发布

阅读量152

点赞数

分类专栏：大数据组件文章标签： spark hadoop 大数据

本文链接：https://blog.csdn.net/qq_31071543/article/details/115026393

版权

3 篇文章 1 订阅

订阅专栏

什么是Spark

Spark是基于内存计算的大数据并行运行的计算框架，提高了大数据环境下数据处理的实时性

Spark特点

Spark可以部署到Yarn上

Spark可以访问Hadoop中Hdfs文件

Spark是基于Scala语言编写的

SparkSQL是Spark生态中的一员，作用类似与Hive

SparkSQL的两个组件

SQLContext：Spark Sql提供SQLContext封装Spark中所有关系性功能

DataFrame：DataFrame是一个分布式的，按照命名列的形式组织的数据集合，与关系型数据库中的数据表结构类似

把Spark作为Hive的一个计算引擎，把Hive查询作为Spark的任务提交到Spark集群上执行。基于Spark计算引擎，可以Hive能提高性能

参考文章

Hive、Hive on Spark、SparkSQL的区别：https://www.jianshu.com/p/a38215b6395c

java实现sparksql:https://blog.csdn.net/hzs33/article/details/80427758

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注