自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 数据仓库及应用——Hive 索引概念与常用操作

Hive 索引是一种特殊的数据结构,它可以加快查询的执行速度,特别是在对大型数据集进行查询时。索引存储了表中特定列的值和对应行的物理存储位置的映射,这样可以在查询时快速定位到满足条件的数据行,而不需要全表扫描。

2024-05-22 10:14:48 259

原创 数据仓库及应用——Hive 视图概念与常用操作

使用。

2024-05-21 17:51:42 162

原创 数据仓库及应用——Hive环境配置

您需要复制 `hive-default.xml.template` 为 `hive-site.xml` 并根据需要进行修改。编辑 `~/.bashrc` 或 `~/.bash_profile` 文件,添加 Hive 的 `bin` 目录到 `PATH` 环境变量。然后执行 `source ~/.bashrc` 或 `source ~/.bash_profile` 来使配置生效。- `javax.jdo.option.ConnectionURL`:用于连接到元数据库的 JDBC URL。

2024-05-21 17:35:40 373

原创 数据仓库及应用——Hive 内置函数

1.Hive函数2.查看和调用Hive函数3.Hive内置函数4.Hive内置函数介绍1 5.Hive内置函数介绍2 6.Hive内置函数介绍37.Hive内置函数介绍4

2024-05-21 17:20:46 131

原创 数据仓库及应用——Hive 窗口函数

1.Hive窗口函数2.Hive窗口函数-排序类13.Hive窗口函数-排序类24.Hive窗口函数-排序类25.Hive窗口函数-排序类36.窗口函数-聚合类7.窗口函数-分析类

2024-05-21 17:20:27 204

原创 数据仓库及应用——Hive 聚合操作

1.Hive排序与聚合2.Hive分组聚合13.Hive分组聚合24.Hive分组聚合综合操作

2024-05-21 17:20:18 145

原创 数据仓库及应用——Hive 数据排序

1.Hive排序方法2.Hive分组聚合13.Hive分组聚合24.Hive分组聚合综合操作

2024-05-21 17:20:10 173

原创 数据仓库及应用——Hive数据关联操作

ALL和DISTINCT子句表示是否返回重复行,默认是ALL,返回所有匹配行DISTINCT子句可以返回删除结果集中的重复行LIMIT子句用于限制SELECT语句返回的行数。

2024-05-21 17:20:00 319

原创 数据仓库及应用——数据仓库的元数据的操作

Hive创建分区表语句Hive为Java环境提供两种方式对元数据进行访问hive-jdbc,通过JDBC方式连接HiveServer2(已提)hive-metastore,通过访问metastore服务实现hive-metastore通过面向对象的方式访问数据库数据仅仅获取元数据而不操作的话,使用hive-metastore组件更加合适。

2024-05-21 17:19:47 214

原创 数据仓库及应用——元数据概念与表的结构

元数据是描述真实数据的数据包括Hive表的数据库名、表名、字段名与类型等Hive元数据存储在RDBMS中,有三种存储模式单用户模式,使用内置Derby数据库多用户模式,使用本地MySQL数据库远程服务模式,使用远程元数据服务访问数据库元数据存储在Derby数据库,是默认的存储方式单用户存储模式优缺点优点:Derby小巧易用,安装方便缺点在同一数据库目录下只能有一个Hive客户端使用无法实现元数据共享单用户存储模式适合在测试环境中使用。

2024-05-21 17:19:37 239

原创 数据仓库及应用——数据分区、分桶

Hive中的分桶是将表中的数据组织到固定数量的桶(Bucket)中的技术。Hive中的分区是一种根据分区列的值来组织数据的方法,它允许用户将数据存储在不同的文件夹中。每个分区对应一个文件夹,这样做的好处是查询时可以跳过不相关的分区,从而提高查询效率。分桶和分区的区别在于,分区是基于列的值来组织数据,而分桶是基于哈希值。在这个例子中,如果我们想要查询2023年1月1日的销售记录,Hive只需要扫描对应日期的分区,而不是整个表。字段对表进行分区,那么每个日期的销售记录都会存储在一个单独的文件夹中。

2024-05-21 17:19:28 302

原创 数据仓库及应用——内部表和外部表

外部表被drop后,表的metadata会被删除,但是data不会被删除。(1)外部表:因其指删除表时不会删除HDFS上的数据,安全性相对较高,且指定目录的特性,适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。内部表(managed table): 未被external修饰的表,也叫管理表。外部表:删除表会删除表的元数据(metadata),但不会删除表数据(data)。内部表:删除表会删除表的元数据(metadata)和表数据(data)。内外部表的定义、区别以及数据管理方式。

2024-05-21 17:19:20 203

原创 数据仓库及应用——Hive DDL操作

这条语句在 `mydb` 数据库中创建一个名为 `mytable` 的表,表中有三个字段:`id`、`name` 和 `age`。如果要删除桶化数据,通常需要删除整个表或者通过创建一个没有桶的新表,然后将不需要的桶的数据过滤掉后插入到新表中。在这个例子中,`country` 是一个分区字段,表中的数据将根据 `country` 字段的值存储在不同的目录中。Hive 不支持直接修改已存在的分区值。Hive 不支持直接删除列。这条语句会删除 `mytable` 表中名为 `USA` 的分区及其包含的所有数据。

2024-05-21 17:19:10 526

原创 数据仓库及应用——Hive数据类型

1、Hive存储格式①TEXTFILE:文本文件格式②SEQUENCEFILE:二进制序列化过的Key/Value字节流③ECFILE:面向列的数据存储格式④ORCFILE:对RCFILE的优化2、Hive数据单元①数据库②表:由列构成,在表上可以进行过滤、映射、连接和联合操作。表在HDFS中表现为所属数据库目录下的子目录,分内部表、外部表。内部表类似于RDBMS中的表由Hive管理。外部表指向已经存在HDFS中的数据,真实数据不被Hive管理。③分区:作用是提高查询的效率,

2024-05-21 17:19:00 276

原创 数据仓库技术及应用——Hive

Hive 执行的本质仍然是MapReduce, 但多了一步 SQL 至MapReduce 的转化操作,所以相同条件下,Hive 在运行时并没有直接编写 MapReduce 执行效率高。2、Hive 支持运行在不同的计算框架上,包括 YARN、Tez、Spark、Flink 等。2、可延展:Hive支持用户自定义函数,用户可根据自己的需求来编写自定义函数。3、可容错:Hive支持用户自定义函数,用户可根据自己的需求来编写自定义函数。3、Hive存储与计算,HIve的数据存储在HDFS中。

2024-05-21 17:18:48 394

原创 数据仓库技术及应用——概述

数据仓库是一种面向商务智能(BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。数据仓库的特点 / 优势。

2024-05-21 17:18:34 905 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除