sparkSQL sparkSQL概述和特性

sparkSQL的前世今生

hive ->翻译成sql->解析成MR
shark->翻译成sql>解析成spark任务

  • 在spark出现之前,Shark是专门针对于spark的构建大规模数据仓库系统的一个框架
  • Shark与Hive兼容、同时也依赖于Spark版本
  • Hivesql底层把sql解析成了mapreduce程序,Shark是把sql语句解析成了Spark任务
  • 随着性能优化的上限,以及集成SQL的一些复杂的分析功能,发现Hive的MapReduce思想限制了Shark的发展。
  • 最后Databricks公司终止对Shark的开发
    • 决定单独开发一个框架,不在依赖hive,把重点转移到了sparksql这个框架上。

什么是sparkSQL

SparkSQL是apache Spark用来处理结构化数据的一个模块。(必须是结构化数据,否则无法映射成一张表)

sparkSQL的四大特性

易整合

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PTNLnyxI-1599731054339)(spark_day04课程设计.assets/1569469087993.png)]

  • 将SQL查询与Spark程序无缝混合
  • 可以使用不同的语言进行代码开发
    • java
    • scala
    • python
    • R

统一的数据源访问

在这里插入图片描述

  • 以相同的方式连接到任何数据源

    • sparksql后期可以采用一种统一的方式去对接任意的外部数据源
    val  dataFrame = sparkSession.read.文件格式的方法名("该文件格式的路径")
    

兼容hive

在这里插入图片描述

  • sparksql可以支持hivesql这种语法 sparksql兼容hivesql

支持标准的数据库连接

在这里插入图片描述

  • sparksql支持标准的数据库连接JDBC或者ODBC
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值