Hive
文章平均质量分 91
在人间负债^
商务合作/毕设指导加微:vx18706579002。阿里、腾讯云等多个社区专家博主、创作之星。 会点前后端开发、测试、爬虫,喜欢分享,热爱写文章,享受解决BUG的快感。
展开
-
Hive ---- 文件格式和压缩
为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示:Hadoop查看支持压缩的方式hadoop checknative。Hadoop在driver端设置压缩。原创 2023-05-30 10:16:36 · 3278 阅读 · 0 评论 -
Hive ---- 分区表和分桶表
再比如,若分区表为外部表,用户执行drop partition命令后,分区元数据会被删除,而HDFS的分区路径不会被删除,同样会导致Hive的元数据和HDFS的分区路径不一致。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分,分区针对的是数据的存储路径,分桶针对的是数据文件。分桶表的基本原理是,首先为每行数据计算一个指定字段的数据的hash值,然后模以一个指定的分桶数,最后将取模运算结果相同的行,写入同一个文件中,这个文件就称为一个分桶(bucket)。原创 2023-05-29 08:15:12 · 1769 阅读 · 1 评论 -
Hive ---- 函数
Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。好处:避免用户反复写逻辑,可以直接拿来使用。重点:用户需要知道函数叫什么,能做什么。Hive提供了大量的内置函数,按照其特点可大致分为如下几类:单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。1. 查看系统内置函数2. 查看内置函数用法3. 查看内置函数详细信息1. 数据准备1)表结构2)建表语句。原创 2023-05-25 11:56:23 · 800 阅读 · 0 评论 -
Hive ---- 查询
本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l进行连接操作。union和union all都是上下拼接sql的结果,这点是和join有区别的,join是左右关联,union和union all是上下拼接。在很多情况下,并不需要全局排序,此时可以使用Sort by。对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。原创 2023-05-23 10:18:28 · 1072 阅读 · 0 评论 -
Hive ---- DML(Data Manipulation Language)数据操作
Export导出语句可将表的数据和元数据信息一并到处的HDFS路径,Import可将Export导出的内容导入Hive,表的数据和元数据信息都会恢复。(1)local:表示从本地加载数据到Hive表;(3)partition:表示上传到指定分区,若目标是分区表,需指定分区。(2)overwrite:表示覆盖表中已有数据,否则表示追加。加载HDFS上数据,导入完成后去HDFS上查看文件是否还存在。(2)加载HDFS文件到hive中。(3)加载数据覆盖表中已有的数据。(1)加载本地文件到hive。原创 2023-04-29 23:18:15 · 677 阅读 · 0 评论 -
Hive ---- DDL(Data Definition Language)数据定义
需要注意的是:修改数据库location,不会改变当前已有表的路径信息,而只是改变后续创建的新表的默认的父目录。我们可以考虑使用专门负责JSON文件的JSON Serde,设计表字段时,表的字段与JSON字符串中的一级字段保持一致,对于具有嵌套结构的JSON字符串,考虑使用合适复杂数据类型保存其内容。该语法允许用户利用select查询语句返回的结果,直接建表,表的结构和查询语句的结构保持一致,且保证包含select查询语句放回的内容。Hive中默认创建的表都是的内部表,有时也被称为管理表。原创 2023-04-27 19:52:01 · 495 阅读 · 0 评论 -
Hive ---- Hive 安装
1. Hive官网地址http://hive.apache.org/2. 文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3. 下载地址http://archive.apache.org/dist/hive/4. github地址https://github.com/apache/hive1. 把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下原创 2023-04-26 23:33:50 · 732 阅读 · 0 评论 -
Hive ---- Hive入门
Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。那为什么会有Hive呢?它是为了解决什么问题而诞生的呢?下面通过一个案例,来快速了解一下Hive。例如:需求,统计单词出现个数。(1)在Hadoop课程中我们用MapReduce程序实现的,当时需要写Mapper、Reducer和Driver三个类,并实现对应逻辑,相对繁琐。test表id列atguiguatguigussssjiaobanzhang。原创 2023-04-25 10:53:53 · 476 阅读 · 0 评论