![](https://img-blog.csdnimg.cn/8df8dab30e7b445c8d2006111ef40f97.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hive
文章平均质量分 75
Hive
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
shangjg3
这个作者很懒,什么都没留下…
展开
-
Hive SQL的编译过程
1.MapReduce实现基本SQL操作的原理详细讲解SQL编译为MapReduce之前,我们先来看看MapReduce框架实现SQL基本操作的原理1.1。原创 2023-10-29 11:32:53 · 820 阅读 · 0 评论 -
Hive数据查询详解
本专栏案例数据集链接: https://download.csdn.net/download/shangjg03/88478038为了演示查询操作,这里需要预先创建三张表,并加载测试数据。1.2 部门表1.3 分区表这里需要额外创建一张分区表,主要是为了演示分区查询:2.单表查询2.1 SELECT2.2 WHERE2.3 DISTINCTHive 支持使用 DISTINCT 关键字去重。2.4 分区查询分区查询 (Partition B原创 2023-10-29 11:09:07 · 663 阅读 · 0 评论 -
Hive 常用DML操作
1.加载文件数据到表1.1 语法LOCAL 关键字代表从本地文件系统加载文件,省略则代表从 HDFS 上加载文件:从本地文件系统加载文件时, `filepath` 可以是绝对路径也可以是相对路径 (建议使用绝对路径);从 HDFS 加载文件时候,`filepath` 为文件完整的 URL 地址:如 `hdfs://namenode:port/user/hive/project/ data1`原创 2023-10-28 23:09:38 · 1382 阅读 · 0 评论 -
Hive常用DDL操作
LIKE 子句允许使用正则表达式进行过滤,但是 SHOW 语句当中的 LIKE 子句只支持 `*`(通配符)和 `|`(条件或)两个符号。例如 `employees`,`emp *`,`emp * | * ees`,所有这些都将匹配名为 `employees` 的数据库。临时表仅对当前 session 可见,临时表的数据将存储在用户的暂存目录中,并在会话结束后删除。内部表:不仅会删除表的元数据,同时会删除 HDFS 上的数据;外部表:只会删除表的元数据,不会删除 HDFS 上的数据;1. 查看数据库列表。原创 2023-10-28 22:54:12 · 700 阅读 · 0 评论 -
Hive 视图和索引
视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用视图时,Hive 可以将视图的定义与查询结合起来,例如将查询中的过滤器推送到视图中。在指定列上建立索引,会产生一张索引表(表结构如下),里面的字段包括:索引列的值、该值对应的 HDFS 文件路径、该值在文件中的偏移量。删除视图时,如果被删除的视图被其他视图所引用,这时候程序不会发出警告,但是引用该视图其他视图已经失效,需要进行重建或者删除。被更改的视图必须存在,且视图不能具有分区,如果视图具有分区,则修改失败。原创 2023-10-27 22:47:34 · 716 阅读 · 0 评论 -
Hive分区表和分桶表
1.分区表1.1 概念Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 `where` 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的分区设计可以极大提高查询速度和性能。>这里说明一下分区表并 Hive 独有的概念,实际上这个概念非常常见。原创 2023-10-27 22:38:15 · 495 阅读 · 0 评论 -
Hive简介及核心概念
Hive 进行的是统一的元数据管理,就是说你在 Hive 上创建了一张表,然后在 presto/impala/sparksql 中都是可以直接使用的,它们会从 Metastore 中获取统一的元数据信息,同样的你在 presto/impala/sparksql 中创建一张表,在 Hive 中也可以直接使用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;Hive 会在 HDFS 为每个数据库上创建一个目录,数据库中的表是该目录的子目录,表中的数据会以文件的形式存储在对应的表目录下。原创 2023-10-26 17:53:59 · 630 阅读 · 0 评论 -
Hive客户端和Beeline命令行的基本使用
由于 HiveServer2 是 Hive 开发维护的重点 (Hive0.15 后就不再支持 hiveserver),所以 Hive CLI 已经不推荐使用了,官方更加推荐使用 Beeline。方式二为在启动命令行 (Hive CLI / Beeline) 的时候使用 `--hiveconf` 指定配置,这种方式指定的配置作用于整个 Session。在不进入交互式命令行的情况下,可以使用 `hive -e ` 执行 SQL 命令。在 Hive CLI 中支持的参数,Beeline 都支持,常用的参数如下。原创 2023-10-26 17:22:55 · 1209 阅读 · 0 评论 -
Hive分析英国房产价格数据
由于数据中有部分字段包含逗号‘,’,所以数据要预处理一下。该数据集包含有关英格兰和威尔士自1995年。4GB,在ClickHouse中需要约3。5.3伦敦房产每年的平均价格。5.2 统计每年的平均价格。超过2800王条记录,未压缩形式的数据集大小。5.1 统计数据总量。原创 2023-09-01 16:26:07 · 253 阅读 · 0 评论 -
Hive 3.1.3客户端打印大量日志问题解决
在hive的conf目录下新建。原创 2023-08-04 17:47:42 · 416 阅读 · 0 评论 -
Hive 3.1.3 离线安装
将驱动放到/data/olap/hive-3.1.3/lib 目录。原创 2023-08-02 19:05:02 · 173 阅读 · 0 评论 -
Hive sql 基础操作
【代码】Hive sql 基础操作。原创 2023-08-03 11:38:41 · 56 阅读 · 0 评论