sparkSQL,hive on spark ,thriftserver

SparkSQL特性

1.可以在程序里使用SQL
2.DataFrames和SQL可以以相同方式连接外部数据源
3.HIVE的支持性,通过Spark查询HIVE已有的东西
4.它能够使用JDBC或者ODBC的方式来连接到你外部的其他的BI的工具上面

SparkSQL不止是写sql还有:sql,datasets,dataframes

Hive on Spark

Hive运行在MapReduce/Tez/Spark之上。之前hadoop的hive运行的时候,底层跑的是MapReduce。

Spark需要hadoop吗?
不需要,hadoop的hdfs和yarn,spark可以不跑在yarn上,也不一定要把数据写到hdfs上。

Spark需要Hive吗?
不需要,只要有metastore服务就行,能存元数据。metastore可以在其他节点起,然后spark只要在hive-site.xml里配置metastore的地址(thrift://…),这样就能做统一的元数据管理。

shark
写sql,基于hive解析,转换为rdd

Spark各版本特性

待更新
Spark1.6

Spark2.0
SQL 2003的支持,结构化流,UDF的支持

一个好的学习网站

https://databricks.com/b

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值