spark从入门到放弃三十二:Spark Sql(5)hive sql 简述

122 篇文章 15 订阅
17 篇文章 0 订阅

文章地址:http://www.haha174.top/article/details/256688
1 简述

Spark Sql 支持对Hive 中存储的数据进行读写。操作Hive中的数据时,可以创建HiveContext,而不是SqlContext.HiveContext 继承自SqlContext,但是增加了在Hive元数据库中查找表,以及用HiveQl 语法编写sql功能,除了sql方法之外还提供了hql方法,从而使用hive语法来编译sql。
使用HiveContext ,可以执行Hive的大部分功能,包括创建表,往表里导入数据以及用Sql 语句查询表中的数据,查询出来的结果是一个Row 数组。

2 保存数据

Spark Sql 还允许将数据保存到Hive 表中,调用DataFrame 的 saveAsTable 命令,即可将DataSet 中的数据保存到Hive 表中,于registerTempTable 不同saveAsTable 是会将DataFrame 中的数据物化到Hive 表中的,而且还会在Hive元数据库中创建表的元数据。
默认情况下SaveAsTable 会将一张Hive Manager Table ,也就是说,数据的位置都是由元数据库中的信息控制的。当ManagerTable 被删除时,表中的数据也会一并被删除。
RegisterTempTable 只是注册一个临时的表,只要Application 停止或者重启了,那么表就没有了。而saveAsTable 石创建物理化的表,无论Application 是否重启或者停止都会一直存在。

欢迎关注,更多福利

这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Spark SQLSpark生态系统中的一个组件,它提供了一种基于结构化数据的编程接口。Spark SQL支持使用SQL语言进行数据查询和处理,同时还支持使用DataFrame和Dataset API进行编程。Spark SQL还提供了与Hive集成的功能,可以使用Hive SQL语言查询和处理数据Hive SQL是Hadoop生态系统中的一个组件,它提供了一种基于SQL语言的数据仓库解决方案。通过Spark SQLHive集成,可以在Spark中使用Hive SQL语言进行数据查询和处理,同时还可以利用Spark的分布式计算能力加速数据处理。 ### 回答2: Spark SQL 是基于 Spark 构建的一个模块,它使得使用 SQL 访问结构化数据成为了可能。Spark SQL 结合了 Spark 强大的分布式计算能力和 SQL 的易用性,能够处理从结构化数据到半结构化数据和无结构化数据的查询。Spark SQL 提供了一个统一的数据访问接口,支持从多种数据库和文件格式读取数据,也支持在 Hadoop HDFS 上进行分布式计算。 Hive SQL 是一个 SQL 的扩展,可以让用户使用 SQL 查询 Hadoop HDFS 中的数据Hive SQL 可以将 SQL 查询转化为 MapReduce 作业,以便在 Hadoop 上运行。类似于 Spark SQLHive SQL 也可以支持从多种文件格式和存储系统中读取数据,并可以使用 HiveQL 对数据进行查询。HiveQL 是 Hive SQLSQL 方言,它包含了 SQL 非常基础的功能,而且还包含了一些扩展功能,例如用户自定义函数和 MapReduce 脚本。 Spark SQLHive SQL 之间还有一些其他的区别。其中,最明显的区别就在于 Spark SQL 是内存计算,而 Hive SQL 是基于磁盘计算。由于 Spark SQL 可以在内存中处理数据,因此具有更快的查询速度和更好的性能。此外,Spark SQL 还具有更好的支持复杂数据类型的能力。 总的来说,Spark SQLHive SQL 都是非常优秀的分布式计算平台和 SQL 扩展,它们带来了很多的便利性和高效性,使得大数据的处理和分析变得更加容易和高效。学习和掌握这两个技术,对于从事大数据开发和处理的人员来说是非常重要的。 ### 回答3: Spark是一个开源的分布式计算引擎,它的出现很大程度上改变了大数据处理的方式,同时它也为很多数据工程师提供了灵活、高效的数据处理解决方案。Spark SQLSpark被广泛使用的一个组件,它提供了一种统一的数据处理接口,让用户可以在一个高度优化的引擎上进行SQL查询以及数据处理。 Spark SQL可以与Hive集成,因为Hive的底层也是使用了map-reduce模式。在使用Spark SQL的时候,用户可以根据需要在命令行模式或者使用脚本来进行数据处理。而且,Hive SQL 可以访问 Hadoop 组件的数据,包括HDFS,HBase,和S3等等,使得Spark SQL能够进行更多场景的数据处理。 在使用Spark SQLHive SQL,用户可以使用类似于SQL的语言进行数据处理。这些语言有很多的常见操作,例如join,groupBy,orderBy等。Spark SQL也支持一些比较高级的数据操作,例如窗口函数、自定义聚合函数等,这些操作可以让用户更加灵活的处理数据,并且降低了用户对于数据处理的技术门槛。 总之,Spark SQLHive SQL对于数据处理的灵活性和性能都具有非常高的优势。虽然它们之间有所不同,但是在很多场景下,Spark SQLHive SQL也可以结合使用来提高数据处理效率和完成更加复杂的任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值