hive
往事随风_h
感谢互联网,让我在知识的海洋遨游了一年又一年,为了感谢广大网友,我也把所学知识分享,咱们一起进步!
展开
-
一文搞懂Hive MapJoin的作用以及如何使用它
摘要MapJoin是Hive的一种优化操作,其适用于小表JOIN大表的场景,由于表的JOIN操作是在Map端且在内存进行的,所以其并不需要启动Reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高JOIN效率使用方法一:在Hive0.11前,必须使用MAPJOIN来标记显示地启动该优化操作,由于其需要将小表加载进内存所以要注意小表的大小SELECT /*+ MAPJOIN(smalltable)*/ .key,valueFROM smalltable JOIN原创 2021-04-16 17:07:37 · 10054 阅读 · 4 评论 -
一分钟搞明白hive分区表和分桶表的区别
1.两者的区别(1)分区和分桶都是细化数据管理,但是分区表是手动添加区分,由于hive是读模式,所以对添加进分区的数据不做模式校验。分桶表的数据时按住某些分桶字段进行hash散列 相乘的多个文件,所以数据的准确性高很多(2)分区表是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹(3)分桶是相对分区进行更细粒度的划分。分桶将整个数据内容按照某列属性值的hash值进行区分,如要按照name属性分为3个桶,就是对name属性值的hash值对3取摸,按照取模结果对数据分桶。如取模结原创 2021-01-06 16:32:45 · 26380 阅读 · 0 评论 -
hql中substr函数截取字符串匹配
开发中,经常进行模糊查询或者进行截取字符串进行模糊匹配,常用的就是substr函数或者substring函数。使用语法: substr(string A, int start),substring(string A, int start) 两者用法一样,两个参数 返回值: string 说明:返回字符串A从start位置到结尾的字符串举例演示: hive> select substr('abcde',3) fromlxw_dual; .原创 2020-12-29 11:55:17 · 5837 阅读 · 0 评论 -
一篇文章让你了解Hive和HBase的区别
相信做大数据开发的朋友对Hive和HBase一定不会陌生。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。HBase是Hadoop的数据库,一个分布式、可扩展、大数据的存储。单个的从字面意思上或许很难看出二者的区别,别急,下面我们就对二者做个详细的介绍。两者的特点:Hive:Hive帮助熟悉SQL的人运行MapReduce任务。因为它是JDBC兼容的,同时,它也能够和现.原创 2020-12-22 09:46:12 · 2630 阅读 · 0 评论 -
Hive行列转换
Hive行列转换1、行转列 (根据主键,进行多行合并一列)使用函数:concat_ws(‘,’,collect_set(column))collect_list 不去重collect_set 去重column 的数据类型要求是 string1.1、构建测试数据vi row_to_col.txta b 1 a b 2 a b 3 c d 4 c d 5 c d 61.2、建表create table tmp_jiangzl_原创 2020-08-20 20:43:10 · 3933 阅读 · 0 评论 -
Hive执行引擎Tez
tez是什么Tez是一个Hive的运行引擎,性能优于MR。为什么优于MR呢?看下图。用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到HDFS。Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能。安装前提先部署好hadoop与hive的运行环境并能够正确的运行,至于原因大家都懂。1.下载地址http://tez.apache.org # apach原创 2020-08-14 16:30:53 · 6807 阅读 · 0 评论 -
Hive的工作原理
Hive的工作原理流程步骤为:用户提交查询等任务给Driver。编译器获得该用户的任务Plan。编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。编译器Compiler得到元数据信息,对任务进行编译,先将HiveQL转换为抽象语法树,然后将抽象语法树转换成查询块,将查询块转化为逻辑的查询计划,重写逻辑查询计划,将逻辑计划转化为物理的计划(MapReduce), 最后选择最佳的策略。将最终的计划提交给Driver。Driver将计原创 2020-07-29 18:35:22 · 4214 阅读 · 0 评论