sparkSQL，hive on spark ，thriftserver

最新推荐文章于 2024-01-20 21:20:57 发布

14yhuang

最新推荐文章于 2024-01-20 21:20:57 发布

阅读量1.2k

点赞数 2

分类专栏：大数据知识文章标签： spark

本文链接：https://blog.csdn.net/qq_36459386/article/details/85242541

版权

文章目录

SparkSQL配置支持Hive

SparkSQL特性

1.可以在程序里使用SQL
2.DataFrames和SQL可以以相同方式连接外部数据源
3.HIVE的支持性，通过Spark查询HIVE已有的东西
4.它能够使用JDBC或者ODBC的方式来连接到你外部的其他的BI的工具上面

SparkSQL不止是写sql还有:sql，datasets，dataframes

Hive on Spark

Hive运行在MapReduce/Tez/Spark之上。之前hadoop的hive运行的时候，底层跑的是MapReduce。

Spark需要hadoop吗？
不需要，hadoop的hdfs和yarn，spark可以不跑在yarn上，也不一定要把数据写到hdfs上。

Spark需要Hive吗？
不需要，只要有metastore服务就行，能存元数据。metastore可以在其他节点起，然后spark只要在hive-site.xml里配置metastore的地址（thrift://…）,这样就能做统一的元数据管理。

shark
写sql，基于hive解析，转换为rdd

Spark各版本特性

待更新
Spark1.6

Spark2.0
SQL 2003的支持，结构化流，UDF的支持

一个好的学习网站

https://databricks.com/b

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

14yhuang

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL

欢迎来到我的博客，一起探索代码里的世界！

03-13

2950

Hive由Facebook开发，用于解决海量结构化日志的数据统计，于2008年贡献给 Apache 基金会。Hive是基于Hadoop的数据仓库工具，可以将结构化数据映射为一张表，提供类似SQL语句查询功能本质：将Hive SQL转化成MapReduce程序。Spark SQL主要用于结构型数据处理，它的前身为Shark，在Spark 1.3.0版本后才成长为正式版，可以彻底摆脱之前Shark必须依赖HIVE的局面。

Hive On Spark & SparkSQL On Hive 笔记

大数据研究小白

08-24

680

Hive On Spark & SparkSQL On Hive

参与评论您还未登录，请先登录后发表或查看评论

spark 启动thrift server实现hive on spark

qq_37797234的博客

01-21

747

在 spark的conf下创建 hive-site.xml 不过在CDH中，hive是默认为hive on spark的，而不是mr 新增下面内容： <configuration> <property> <name>hive.metastore.client.connect.retry.delay</name> <value>5</value> </property> &lt

spark基础之Spark SQL和Hive的集成以及ThriftServer配置

happy19870612's blog

10-27

1万+

如果希望Maven编译Spark时支持Hive,需要给定-Phive -Phive-thriftserver。比如比如：mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0-Phive -Phive-thriftserver -DskipTests clean package 一 Spark SQL和Hive集成 1.1 将hive的配置文件hiv

Spark SQL读取Hive数据配置及使用Thrift JDBC/ODBC Server访问Spark SQL

Fang的博客

01-11

1万+

[TOC] Spark SQL可以读取hive中的数据,开启Thrift JDBC/ODBC Server服务可以使其他语言客户端使用Spark SQL.关于Spark SQL中对hive的支持,官方文档说明让人疑惑,好像没有把hive编译进去,需要自己手动编译,官方文档提及: Spark SQL also supports reading and writing data stored in

thriftserver与spark application的区别

qq_43688472的博客

12-29

1359

一.ThriftServer介绍 ThriftServer是一个JDBC/ODBC接口，用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据。ThriftServer在启动的时候，会启动了一个sparkSQL的应用程序，而通过JDBC/ODBC连接进来的客户端共同分享这个sparkSQL应用程序的资源，也就是说不同的用户之间可以共享数据；ThriftServer启...

SparkSql 整合 Hive ,Thriftserver启动后自动退出的问题解决办法

最新发布

c1026626434的博客

01-20

522

SparkSql 整合 Hive ,Thriftserver启动后自动退出的问题解决办法

《SparkSQL 3》--SparkSQL on Hive环境搭建、thriftServer Beeline 连接Hive

yk_3215123的博客

08-11

475

前言： Hive:数据在hdfs上,元数据在mysql中启动hive,确保hive环境 1)zkServer.sh start 2)start-dfs.sh 3)start-yarn.sh 4)启动mysql服务 root>service mysqld start 5）hive hive>show databases; 6)从shell中运行HiveSe...

hive cli的实现和sparkhivethriftserver的cli实现对比

riluomati的专栏

09-01

375

Hive cli实现老规矩，从开始启动org.apache.hive.service.server.HiveServer2#main开始看起 public static void main(String[] args) { HiveConf.setLoadHiveServer2Config(true); try { ServerOptionsProcessor oproc = new ServerOptionsProcessor("hiveserver2");

【大数据----Spark】基于Spark streaming的SQL服务实时自动化运维

Sunny

09-12

229

【自动化】基于Spark streaming的SQL服务实时自动化运维设计背景 spark thriftserver目前线上有10个实例，以往通过监控端口存活的方式很不准确，当出故障时进程不退出情况很多，而手动去查看日志再重启处理服务这个过程很低效，故设计利用Spark streaming去实时获取spark thriftserver的log，通过log判断服务是否停止服务，从而进行对应的自...

10w分区表,hive能跑,sparksql运行也完全能跑起来

段智华的博客

04-16

815

使用SparkSql 操作10w+分区表及Spark SQL性能优化总结 /* * *王家林老师授课http://weibo.com/ilovepains */ 每天晚上20：00YY频道现场授课频道68917580 使用SparkSql 操作10w+分区表及Spark SQL性能优化总结

sparkSQL1.1入门之七：ThriftServer和CLI

mmicky的hadoop、Spark世界

09-09

1万+

spark1.1相较于spark1.0，最大的差别就在于spark1.1增加了万人期待的CLI和ThriftServer。使得hive用户还有用惯了命令行的RDBMS数据库管理员很容易地上手sparkSQL，在真正意义上进入了SQL时代。下面先简单介绍其使用，限于时间关系，以后再附上源码分析。 1：ThriftServer和CLI的命令参数 A：令人惊讶的CLI

spark-shell、spark-sql、thriftserver beeline 的区别

weixin_37417954的博客

07-03

2180

spark-shell、spark-sql 都是是一个独立的 spark application，启动几个就是几个 spark application每次都要重新启动申请资源。用thriftserver，无论启动多少个客户端（beeline），只要是连在一个thriftserver上，它都是一个spark application，后面不用在重新申请资源。能数据共享（上一个beeli...

Spark Thrift Server 部署与应用

weixin_38251332的博客

03-08

9015

前言在介绍spark thrift server 需要先介绍一下其与hiverserver2及spark-sql的关系与区别 HiveServer2 Hive提供了一个命令行终端，在安装了Hive的机器上，配置好了元数据信息数据库和指定了Hadoop的配置文件之后输入hive命令，就可以进入到hive的交互式终端，接下来只要编写SQL语句即可，这跟传统RDB数据库提供的终端是类似的。启动hiveserver2服务后，Hive除了可以通过hive提供的beeline以cli的方式操作hive，还提供了j

Spark Thrift Server 架构和原理介绍

热门推荐

u013332124的专栏

05-19

2万+

文章目录一、Spark Thrift Server介绍二、部署Spark Thrift Server三、Spark Thrift Server的架构四、Spark Thrift Server如何执行SQL五、和HiveServer2的区别Spark Thrift Server的优点Spark Thrift Server的缺点六、结论一、Spark Thrift Server介绍 Spark Th...

深入浅出 Spark Thrift Sever

epitomizelu的专栏

12-16

3374

一，Spark Thrift Sever是什么 Spark借助Hive的Metadata Service可以实现通过命令行客户端工具执行Sql语句，就像是Hive或者Mysql的命令行工具一样，称之为Spark CLI。 Spark CLI适合做一些简单的测试，如Sql语法验证、查看表结构等等，使用起来比较方便。但其有一个限制，Spark CLI必须和HiveMeta Service在同一台服务器，这就限制了Spark CLI的使用范围，局限于开发人员使用。 Spark SQL有没有提供通过客户端(DBea

Spark SQL利器：cacheTable/uncacheTable

xiaolang85的专栏

06-30

2452

Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”（作为一个MapReduce的忠实粉丝，能这样说，大家都懂了吧），这在我们的业务场景里真的是非常有用。假设我们有一个文本文件“datas”，每一行有三列数据，以“\t”分隔，模拟生成文件的代码如下：执行该代码之后，文本文件会存储于本地路径：/tmp/datas，它包含1000行测试数据，将其上传

HIVE-on-Spark

grace♥的博客

11-20

763

hive底层是通过MR进行计算，将其改变为SparkCore来执行配置步骤 1.在不是高可用集群的前提下，只需要将Hadoop安装目录中的core-site.xml拷贝到spark的配置conf文件目录下即可 2.将hive安装路径下的hive-site.xml拷贝到spark的配置conf配置文件目录下即可注意：若是高可用：需要将hadoop安装路径下的core-site,xml和hdf...

spark thrift server 中文

04-04