自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Hive DDL操作

Hive DDL用户定义Hive数据库模式,其命令包括create、drop、alter、truncate、show和describe等,主要是对数据库和表进行创建、修改、删除等操作。

2024-06-22 22:22:14 362

原创 Hive 内置函数

(1)字符函数(2)聚合函数常用包括count、sum、max/min、avg等(3)类型转换函数(4)数学函数(5)日期函数(7)条件函数。

2024-06-22 21:42:30 302

原创 Hive 窗口函数

PARTITION BY类似于GROUP BY,表示对当前结果集按其中某列进行分组,如果未指定该子句,意味着整个。#窗口函数的位置作为SELECT语句中的一列出现,类似基本聚合函数,如count()#对窗口函数的计算结果进行过滤,必须在窗口函数所在SELECT语句往外一层。#OVER()表示在当前查询的结果集上操作,包括分区与排序两种,均可选。功能与RANK()类似,不同的是,DENSE RANK()产生相。功能与ROW NUMBER()类似,不同的是,RANK()产生。可为每行数据都生成一行结果记录。

2024-06-22 21:21:02 289

原创 Hive排序方法

常用的基础聚合函数。

2024-06-22 19:55:29 186

原创 Hive数据关联操作

必须给定名称,因为FROM子句中每个表必须有表名列必须有唯一的名称,并且在外部查询中可以引用可以进行UNION、JOIN操作。它可以表示一个临时的结果集(表),该表由一个简单的查询指定,只要在范围内,均可共享该表。ALL和DISTINCT子句表示是否返回重复行,默认是ALL,返回所有匹配行。主要通过JOIN语句将多个表中的行组合查询hive JOIN仅支持等值连接。也称为子查询,通常用于FROM子句之后。关联查询是指对多表进行联合查询。Hive支持任意级别的子查询。CTE也称公共表表达式。

2024-06-22 19:46:58 380

原创 分区、分桶

Hive创建分区表语句。

2024-06-22 19:33:33 732

原创 Hive元数据

元数据表名(MySQL hive数据库中)说明VERSION存储Hive版本存储与Hive数据库相关信息存储Hive表相关信息存储Hive文件存储相关信息存储分区相关信息COLUMNS_V2存储表对应的字段信息CDS记录Columns_v2中所有的CD_IDDB_PRIVS数据库权限信息表IDXS索引表表字段统计信息。

2024-06-22 19:09:35 726

原创 Hive内、外部表

内部表(managed table): 未被external修饰的表,也叫管理表。外部表(external table):被external修饰的表。内部表&外部表的区别:内部表:删除表会删除表的元数据(metadata)和表数据(data)。外部表:删除表会删除表的元数据(metadata),但不会删除表数据(data)。数据管理方式: 数据(data)都存储在HDFS上,内部表由Hive自身管理,外部表数据由HDFS管理;元数据(metadata)都存储在mysql上,由mysql管理。

2024-06-22 18:48:05 218

原创 Hive的数据类型

Hive 中的基本数据类型也称为原始类型,包括整数、小数、文本、布尔、二进制以及时间类型。整数:TINYINT、SMALLINT、INT、BIGINT小数:FLOAT、DOUBLE、DECIMAL文本:STRING、CHAR、VARCHAR布尔:BOOLEAN二进制:BINARY时间:DATE、TIMESTAMP、INTERVAL上述数据类型都是对Java中的接口的实现,所以类型的具体行为细节和Java中对应的类型完全一致。

2024-05-23 13:01:38 866

原创 Hive数据存储模型

外部表指向已经存在HDFS中的数据,与内部表元数据组织是相同的,但其数据存放位置是任意的。RCFILE遵循“先水平划分,再垂直划分”的设计理念:首先把Hive表水平切分成多个行组,保证同一行的数据位于同一节点,其次在行组内按照“列”垂直切分,实现列与列的数据在磁盘上呈现为连续的存储块。数据库(Database)类似于RDBMS 中的数据库,在HDFS 中表现为 hive.metastore warehouse.dir 目录下的一个文件夹,其本质是用于避免表、视图、分区、列等命名冲突的命名空间。

2024-05-22 18:04:15 577

原创 Hive基础

Apache Hive是一个由Apache软件基金会维护的开源项目,由Facebook贡献。Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,同时可以将SQL语句转化为MapReduce作业进行运行。Hive具有一系列功能,可以进行数据提取、转化和加载,是一种可以查询和分析存储在Hadoop中的大规模数据的工具。

2024-03-21 14:57:19 710

原创 数据仓库概述

数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。

2024-03-13 15:56:07 205

原创 数据仓库hive的安装说明

在hive-env.sh文件中加入下列配置信息: export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_231。# 不重启mysql服务而使修改的内容直接生效。写入下列信息: export HIVE_HOME=/usr/local/hive。将bind-address = 127.0.0.1行注释掉。$source ~/.bashrc # 使其生效。

2024-03-05 18:22:26 863 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除