Spark SQL(01)--Overview

Overview
1. Spark SQL用于处理结构化数据.
2. 可以使用SQL shell或者是Dataset api进行交互
3. 除了可以和已存在的文件进行查询, 还能结合Hive或者其他数据库连接(如JDBC和ODBC)

Dataset
1. 是一个分布式数据集合.
2. 可以通过JVM Object转换为Dataset然后通过常见的RDD函数进行操作.

DataFrame
1. 一个有列名字的Dataset, 类似于关系型数据库中的表.
2. 可以从文件,HIve表, 外部数据库,或者已存在的RDD转化为DataFrame.

总结
1. DataFrame就是一个分布式内存中的二维表, 可以从RDD, 文件, Hive表, 外部表等渠道转化为DataFrame.
2. 因为在内存中计算, 速度肯定是要优于磁盘的.
3. Spark SQL还根据已知的信息对计算过程进行了优化.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值