Suniiny-CSDN博客

原创数据仓库及应用——Hive 索引概念与常用操作

Hive 索引是一种特殊的数据结构，它可以加快查询的执行速度，特别是在对大型数据集进行查询时。索引存储了表中特定列的值和对应行的物理存储位置的映射，这样可以在查询时快速定位到满足条件的数据行，而不需要全表扫描。

2024-05-22 10:14:48 324

您需要复制 `hive-default.xml.template` 为 `hive-site.xml` 并根据需要进行修改。编辑 `~/.bashrc` 或 `~/.bash_profile` 文件，添加 Hive 的 `bin` 目录到 `PATH` 环境变量。然后执行 `source ~/.bashrc` 或 `source ~/.bash_profile` 来使配置生效。- `javax.jdo.option.ConnectionURL`：用于连接到元数据库的 JDBC URL。

2024-05-21 17:35:40 429

原创数据仓库及应用——Hive 内置函数

1.Hive函数2.查看和调用Hive函数3.Hive内置函数4.Hive内置函数介绍1 5.Hive内置函数介绍2 6.Hive内置函数介绍37.Hive内置函数介绍4

2024-05-21 17:20:46 166

原创数据仓库及应用——Hive 窗口函数

1.Hive窗口函数2.Hive窗口函数-排序类13.Hive窗口函数-排序类24.Hive窗口函数-排序类25.Hive窗口函数-排序类36.窗口函数-聚合类7.窗口函数-分析类

2024-05-21 17:20:27 232

原创数据仓库及应用——Hive 聚合操作

1.Hive排序与聚合2.Hive分组聚合13.Hive分组聚合24.Hive分组聚合综合操作

2024-05-21 17:20:18 177

原创数据仓库及应用——Hive 数据排序

1.Hive排序方法2.Hive分组聚合13.Hive分组聚合24.Hive分组聚合综合操作

2024-05-21 17:20:10 206

原创数据仓库及应用——Hive数据关联操作

ALL和DISTINCT子句表示是否返回重复行，默认是ALL，返回所有匹配行DISTINCT子句可以返回删除结果集中的重复行LIMIT子句用于限制SELECT语句返回的行数。

2024-05-21 17:20:00 364

原创数据仓库及应用——数据仓库的元数据的操作

Hive创建分区表语句Hive为Java环境提供两种方式对元数据进行访问hive-jdbc，通过JDBC方式连接HiveServer2（已提）hive-metastore，通过访问metastore服务实现hive-metastore通过面向对象的方式访问数据库数据仅仅获取元数据而不操作的话，使用hive-metastore组件更加合适。

2024-05-21 17:19:47 251

原创数据仓库及应用——元数据概念与表的结构

元数据是描述真实数据的数据包括Hive表的数据库名、表名、字段名与类型等Hive元数据存储在RDBMS中，有三种存储模式单用户模式，使用内置Derby数据库多用户模式，使用本地MySQL数据库远程服务模式，使用远程元数据服务访问数据库元数据存储在Derby数据库，是默认的存储方式单用户存储模式优缺点优点：Derby小巧易用，安装方便缺点在同一数据库目录下只能有一个Hive客户端使用无法实现元数据共享单用户存储模式适合在测试环境中使用。

2024-05-21 17:19:37 287

原创数据仓库及应用——数据分区、分桶

Hive中的分桶是将表中的数据组织到固定数量的桶（Bucket）中的技术。Hive中的分区是一种根据分区列的值来组织数据的方法，它允许用户将数据存储在不同的文件夹中。每个分区对应一个文件夹，这样做的好处是查询时可以跳过不相关的分区，从而提高查询效率。分桶和分区的区别在于，分区是基于列的值来组织数据，而分桶是基于哈希值。在这个例子中，如果我们想要查询2023年1月1日的销售记录，Hive只需要扫描对应日期的分区，而不是整个表。字段对表进行分区，那么每个日期的销售记录都会存储在一个单独的文件夹中。

2024-05-21 17:19:28 420

原创数据仓库及应用——内部表和外部表

外部表被drop后，表的metadata会被删除，但是data不会被删除。（1）外部表：因其指删除表时不会删除HDFS上的数据，安全性相对较高，且指定目录的特性，适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。内部表(managed table): 未被external修饰的表，也叫管理表。外部表：删除表会删除表的元数据(metadata)，但不会删除表数据（data）。内部表：删除表会删除表的元数据(metadata)和表数据（data）。内外部表的定义、区别以及数据管理方式。

2024-05-21 17:19:20 321

原创数据仓库及应用——Hive DDL操作

这条语句在 `mydb` 数据库中创建一个名为 `mytable` 的表，表中有三个字段：`id`、`name` 和 `age`。如果要删除桶化数据，通常需要删除整个表或者通过创建一个没有桶的新表，然后将不需要的桶的数据过滤掉后插入到新表中。在这个例子中，`country` 是一个分区字段，表中的数据将根据 `country` 字段的值存储在不同的目录中。Hive 不支持直接修改已存在的分区值。Hive 不支持直接删除列。这条语句会删除 `mytable` 表中名为 `USA` 的分区及其包含的所有数据。

2024-05-21 17:19:10 560