Spark SQL是什么?

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文

Spark SQL 是用于结构化数据数据处理的 Spark 高级模块。

可用于从各种结构化数据源,例如 JSON (半结构化)文件、 CSV 文件、

ORC 文件( ORC 文件格式是一种 Hive 的文件存储格式, 可以提高 Hive 表的读、写以及处理数据的性能)、

Hive 表、 Parquet 文件(新型列式存储格式,具有降低查询成本、高效压缩等优点,广泛用于大数据存储、分析领域)中读取数据,

然后在 Spark 程序内通过 SQL 语句对数据进行交互式查询,进而实现数据分析需求,也可通过标准数据库连接器( JDBC / ODBC )连接传统关系型数据库,取出并转化关系数据库表,利用 Spark SQL 进行数据分析。

关于 ORC 请参考我的博客——ORCFile是什么?
关于 Parquet 请参考我的博客——Parquet是什么

什么是结构化数据?

结构化数据是指记录内容具有明确的结构信息数据集内的每条记录都符合结构规范的数据集合,

是由二维表结构来逻辑表达和实现的数据集合。

可以类比传统数据库表来理解该定义,所谓的“明确结构”即是由预定义的表头( Schema )表示的每一条记录由哪些字段组成以及各个字段的名称、类型、属性等信息。

  • 13
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 25
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 25
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值