匠人精神，持之以恒！

星光不问赶路人，时光不负有心人！

hive

关注

文章平均质量分 90

关注数：文章数：11 文章阅读量：18943 文章收藏量：148

作者: 大数据老司机

专注于大数据智能运维和大数据开发领域优质创作者

展开

数仓 Hive HA 介绍与实战操作

在数据仓库中，是指为这个数据仓库查询和分析工具提供高可用性的架构和解决方案。Hive是建立在Hadoop生态系统之上的一种数据仓库解决方案，用于处理大规模数据的查询和分析。为了确保Hive服务的连续性和可用性，特别是在出现硬件故障、软件问题或其他中断情况时，实施Hive的高可用性解决方案非常重要。Hive HA通常涉及以下几个方面：元数据存储的高可用性：元数据存储在Hive Metastore中，其中包括表的结构、分区信息、表的位置等。为了确保元数据的高可用性，可以使用数据库复制、备份和恢复策略。

原创 2023-08-06 18:41:56 · 400 阅读 · 0 评论
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解

在Hive中，所谓的小文件是指文件大小远小于HDFS块大小的文件，通常小于128 MB，甚至更少。这些小文件可能是Hive表的一部分，每个小文件都包含一个或几个表的记录，它们以文本格式存储。存储空间占用过多：在Hadoop生态系统中，每个小文件都将占用一定的存储空间，而且每个小文件也需要一个块来存储。如果存在大量的小文件，将浪费大量的存储空间。处理延迟：小文件数量过多，会引起大量IO操作，导致处理延迟。查询性能下降：小文件用于分区和表划分，可能导致查询延迟并降低查询性能。

原创 2023-05-10 22:25:47 · 631 阅读 · 0 评论
【大数据】Hive Join 的原理与机制

Hive是一个基于Hadoop的数据仓库解决方案，它提供了类似于SQL的查询语言，称为HiveQL，用于处理结构化数据。在Hive中，JOIN操作用于将两个或多个表中的数据连接在一起，以便进行联合查询和分析。Hive 中的 Join 可分为（Reduce阶段完成join）和Map Join（Map 阶段完成 join）。数据分片：Hive将参与JOIN操作的表按照指定的JOIN条件进行分片。每个分片是表的一个子集，用于并行处理。Map阶段。

原创 2023-05-07 20:30:00 · 739 阅读 · 0 评论
【大数据】Hive DDL 操作与视图讲解

Hive是建立在Hadoop上的数据仓库工具，它允许用户通过类SQL的语法来查询和管理数据。在Hive中，DDL（数据定义语言）和视图操作是非常常见的。用语句来查看视图定义。总之，Hive中的DDL操作和视图操作可以帮助用户定义和管理表、视图等数据结构，从而更加灵活和高效地管理和查询数据。用户可以根据实际需求选择使用哪种操作方式，以达到更好的数据管理和操作效果。

原创 2023-05-05 23:36:13 · 561 阅读 · 0 评论
【大数据】Hive 内置函数和 UDF 讲解

Hive是基于Hadoop的一个数据仓库工具，可以将结构化数据文件映射为一张数据库表，并提供类SQL语句操作。Hive内置了很多函数，可以满足基本的查询需求，同时还支持自定义函数(UDF)来实现更加灵活的操作。除了Hive内置函数之外，用户还可以自定义函数来实现更加灵活的操作。标量函数（UDF：将一行中的一个值转换为另外一个值，比如字符串转小写；集合函数（UDAF：作用于多个值上，并且返回一个结果，比如平均值；行级别函数（UDTF。

原创 2023-05-05 21:18:39 · 542 阅读 · 0 评论
【大数据】Hive 分区和分桶的区别及示例讲解

在大数据处理过程中，Hive是一种非常常用的数据仓库工具。Hive分区是把数据按照某个属性分成不同的数据子集。在Hive中，数据被存储在HDFS中，每个分区实际上对应HDFS下的一个文件夹，这个文件夹中保存了这个分区的数据。因此，在Hive中使用分区，实际上是将数据按照某个属性值进行划分，然后将相同属性值的数据存储在同一个文件夹中。Hive分区的效率提升主要是因为，当进行查询操作时，只需读取与查询相关的数据分区，避免了全表扫描，节约了查询时间。提高查询效率。

原创 2023-05-03 19:52:58 · 428 阅读 · 0 评论
通过 docker-compose 快速部署 Hive 详细教程

其实通过 docker-compose 部署 hive 是在继上篇文章 Hadoop 部署的基础之上叠加的，Hive 做为最常用的数仓服务，所以是有必要进行集成的，感兴趣的小伙伴请认真阅读我以下内容，通过 docker-compose 部署的服务主要是用最少的资源和时间成本快速部署服务，方便小伙伴学习、测试、验证功能等等~通过 docker-compose 快速部署 Hadoop 集群详细教程通过 docker-compose 快速部署 Hadoop 集群极简教程。

原创 2023-04-05 20:00:00 · 2304 阅读 · 0 评论
【云原生】Hive on k8s 环境部署

Hive是基于Hadoop的一个数据仓库（Data Aarehouse，简称数仓、DW），可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。是用于存储、分析、报告的数据系统。大数据Hadoop之——数据仓库HiveHive 架构Hive 客户端架构。

原创 2022-10-01 18:13:29 · 2442 阅读 · 2 评论
大数据Hadoop之——数据采集存储到HDFS实战（Python版本）

要运行这个实例，必须先安装好hadoop和hive环境，环境部署可以参考我之前的文章：大数据Hadoop原理介绍+安装+实战操作（HDFS+YARN+MapReduce）大数据Hadoop之——数据仓库Hive【实例代码如下】#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2022/5/8 10:35# @Author : liugp# @File : Data2HDFS.py"""# pip instal

原创 2022-05-08 12:58:43 · 2182 阅读 · 0 评论
大数据Hadoop之——部署hadoop+hive环境（window10）

文章目录一、安装JDK81）JDK下载地址2）验证二、Hadoop安装1）下载Hadoop3.1.32）配置环境变量3）配置相关配置文件一、安装JDK81）JDK下载地址http://www.oracle.com/technetwork/java/javase/downloads/index.html按正常下载是需要先登录的，这里提供一个不用登录下载的方法连接如下：https://www.oracle.com/webapps/redirect/signon?nexturl=https://d

原创 2022-02-13 20:52:28 · 5077 阅读 · 2 评论
大数据Hadoop之——数据仓库Hive

文章目录一、概述二、Hive优点与使用场景1）优点2）使用场景三、Hive架构1）服务端组件1、Driver组件2、Metastore组件3、Thrift服务2）客户端组件1、CLI2、Thrift客户端3、WEBGUI3）Metastore详解五、Hive的工作原理五、安装1）local模式（内嵌derby）1、下载hive2、配置环境变量3、启动验证2）单用户模式（mysql）1、安装mysql数据库2、解决Hive与Hadoop之间guava版本的差异3、下载对应版本的mysql驱动包4、配置5、初始

原创 2021-12-18 13:52:43 · 3647 阅读 · 2 评论