hive
文章平均质量分 86
BigDataToAI
分享大数据经验
展开
-
Apache Thrift基本使用介绍
基本介绍Thrift 是用于点对点 RPC 实现的轻量级、独立于语言的软件堆栈。 Thrift 为数据传输、数据序列化和应用程序级处理提供了清晰的抽象和实现。 代码生成系统将简单的定义语言作为输入,并生成跨编程语言的代码,这些编程语言使用抽象堆栈来构建可互操作的 RPC 客户端和服务器。Thrift 使以不同编程语言编写的程序可以轻松共享数据和调用远程过程。 Thrift 支持 28 种编程语言,很有可能支持您当前使用的语言。Thrift 专门设计用于支持跨客户端和服务器代码的非原子版本更改。 这使原创 2022-05-13 17:05:01 · 1070 阅读 · 0 评论 -
windows 11系统调试hive metastore 3.1.2源码新姿势
由于工作原因,需要深入了解一下hive metastore相关源码,这几天尝试了在windows中运行hive metastore代码,这边记录一下踩坑的过程以及解决方法。window中编译遇到的问题hive在3.0之后,独立提供hive metastore服务,我们可以直接下载hive standalone metastore相关源码即可,这边以3.1.2版本为例:源码下载:wget https://repo1.maven.org/maven2/org/apache/hive/hive-stand原创 2022-03-17 12:30:57 · 3829 阅读 · 0 评论 -
云原生时代的到来,Hive会被替代吗
Apache Hive 在 2010 年作为 Hadoop 生态系统的一个组成部分突然出现,当时 Hadoop 是进行大数据分析的新颖且创新的方式。Hive 所做的是为 Hadoop 实现了一个 SQL 接口。 它的架构包括两个主要服务:查询引擎——负责 SQL 语句的执行。一个 Metastore——负责将 HDFS 中的数据集合虚拟化为表。Hadoop 背后的概念是革命性的。 庞大的数据集存储在商品硬件集群上的分布式文件系统 (HDFS) 中。 计算作业使用 MapReduce 与数据并行原创 2022-03-15 01:04:12 · 4262 阅读 · 2 评论 -
用ranger对hive metastore 进行授权管理
hive standalone metastore 3.1.2可作为独立服务,作为spark、flink、presto等服务的元数据管理中心,然而在现有的hive授权方案中只有针对hiveserver2的授权,所以本文针对hive standalone metastore独立服务使用ranger对连接到hive metastore的用户进行授权访问,以解决hive standalone metastore无权限验证问题。为了测试验证,本文所作的操作都在一台centos 7.6主机上执行。ranger编译原创 2022-01-16 02:32:04 · 2930 阅读 · 8 评论 -
hive metastore配置kerberos认证
hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是不需要进行认证就可以访问的。所以本文基于大数据组件中流行的kerberos认证方式,对hive metastore进行认证配置。如果您还不了解如何单独启用hive metastore服务,那么您可以参考下述文章。Presto使用Docker独立运行Hive Standalone Metastore管理MinIO(S3)kdc原创 2022-01-11 02:48:40 · 3493 阅读 · 8 评论 -
spark SQL配置连接Hive Metastore 3.1.2
Hive Metastore作为元数据管理中心,支持多种计算引擎的读取操作,例如Flink、Presto、Spark等。本文讲述通过spark SQL配置连接Hive Metastore,并以3.1.2版本为例。通过Spark连接Hive Metastore,需要准备如下文件:hive-site.xmlapache-hive-3.1.2-binspark-3.0.3-bin-hadoop3.2在完成下述操作之前,当然首先需要安装并启动hive standalone metastore,并将hi原创 2022-01-09 16:34:22 · 3496 阅读 · 0 评论 -
通过Java API获取Hive Metastore中的元数据信息
在文章hive metastore 3.0介绍中,我们说到Hive 3.0.0版本开始,其单独提供了standalone metastore服务以作为像presto等处理引擎的元数据管理中心。本文以Java API为例,介绍如何获取hive standalone metastore中的catalog、database、table等信息,通过该方式,我们可以方便地对元数据中心进行监控与管理。当然,首先要在maven项目中导入如下依赖(以hive 3.1.2为例) <dependency>原创 2022-01-09 03:15:20 · 2972 阅读 · 1 评论 -
Presto使用Docker独立运行Hive Standalone Metastore管理MinIO(S3)
在Hive 3.0.0以及之后,Hive Metastore便可独立于Hive单独运行,可作为各数据的元数据中心。本文介绍使用Docker运行Hive Standalone Metastore,并以Presto中的Hive连接器为例,通过Hive Metastore管理MinIO(S3兼容的对象存储)中的数据。本文涉及的组件及其版本:组件名称组件版本Hive Standalone Metastore3.1.2hadoop3.2.2mysql5.7.35原创 2021-12-18 17:34:30 · 3251 阅读 · 2 评论 -
hive metastore 3.0介绍
基本介绍数据库、表、函数等 Hive 对象的定义存储在 Metastore 中。 根据系统的配置方式,统计数据和授权记录也可能存储在那里。 Hive 和其他执行引擎在运行时使用此数据来确定如何解析、授权和有效执行用户查询。Metastore 通过 DataNucleus 将对象定义保存到关系数据库 (RDBMS),DataNucleus 是一个基于 Java JDO 的对象关系映射 (ORM) 层。 有关可以使用的受支持 RDBMS 的列表,请参阅下面的受支持 RDBMS。Metastore 可以配置翻译 2021-12-13 23:47:33 · 996 阅读 · 0 评论 -
Apache Hive and Apache Tez – Memory management and Tuning
Apache Tez is an extensible framework for building high performance batch and interactive data processing applications, coordinated by YARN in Apache Hadoop. Tez improves the MapReduce paradigm by dramatically improving its speed, while maintaining MapRedu原创 2021-09-22 22:53:31 · 322 阅读 · 0 评论 -
hive-3.1.2安装以及使用tez作为执行引擎指南
hive-3.1.2安装以及使用tez作为执行引擎指南hive是构建于hadoop之上的、基于SQL的分布式关系型数据库。为了成功安装好hive,首先确保hdfs集群安装(单namenode和HA模式)hadoop yarn安装centos7中mysql5.7的安装、授权与压测Apache Tez编译安装与验证已经安装安装包下载与解压cd /datawget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.2/apa原创 2021-09-22 22:52:51 · 308 阅读 · 0 评论 -
apache tez 编译安装与验证
基本介绍Apache Tez是构建于Apache Hadoop YARN上,基于有向无环图进行数据处理的框架。主要设计主题:授权终端用户表达性数据流定义API灵活的输入处理输出运行模型数据类型无关极易部署执行性能优于mapreduce优化资源管理运行时计划重新配置动态物理数据流决策通过允许像Apache Hive和Apache Pig这样的项目运行复杂的DAG任务,Tez可以用来处理数据,以前需要多个MR任务,现在只需要一个Tez原创 2021-09-22 22:50:35 · 731 阅读 · 0 评论