Hive
文章平均质量分 83
无影风Victorz
纸上得来终觉浅,绝知此事要躬行 https://github.com/vicotorz
展开
-
Hive与数据库的区别
HQL支持SQL-92标准,所以与SQL非常相似hive on Spark和SparkSQL的结构类似,只是SQL引擎不同,但是计算引擎都是sparkspark SQL和hive到底什么关系历史上存在的原理,以前都是使用hive来构建数据仓库,所以存在大量对hive所管理的数据查询的需求。而hive、shark(hive on spark)、sparlSQL都可以进行hive的数据查............原创 2020-05-07 21:29:10 · 472 阅读 · 0 评论 -
【Hive】Inspector
ObjectInspector帮助我们研究复杂对象的内部结构,解耦了数据使用和数据格式,从而提高了代码的复用度。一个ObjectInspector实例代表了一个类型的数据在内存中存储的特定类型和方法。一个ObjectInspector对象本身并不包含任何数据,它只是提供对数据的存储类型说明和对数据对象操作的统一管理或者是代理ObjectInspector接口使得Hive不拘...原创 2020-01-06 21:50:16 · 267 阅读 · 0 评论 -
【Hive】Hive窗口函数
窗口函数是用于分析用的一类函数,要理解窗口函数要先从聚合函数说起。聚合函数是将某列中多行的值合并为一行,比如sum、count等。 窗口函数则可以在本行内做运算,得到多行的结果,即每一行对应一行的值。通用的窗口函数可以用下面的语法来概括:Function() Over (Partition By Column1,Column2,Order By Column3)FIRST_VAL...原创 2020-04-07 19:47:47 · 311 阅读 · 0 评论 -
【Hive】Hive元数据库介绍及信息查看
转载@dabokele在安装Hive时,需要在hive-site.xml文件中配置元数据相关信息。与传统关系型数据库不同的是,hive表中的数据都是保存的HDFS上,也就是说hive中的数据库、表、分区等都可以在HDFS找到对应的文件。这里说到的元数据可以理解成hive中用于保存数据库、表、分区或者表字段等基本属性,以及这些属性与HDFS文件对应关系的一个映射。 这些映射关系比较常见的一...原创 2018-08-20 17:23:08 · 21830 阅读 · 1 评论 -
【Hive】UDF 笔记
UDF分为两大类:UDAF(用户自定义聚合函数)和UDTF(用户自定义表生成函数)Hive有两个不同的接口编写UDF程序。一个是基础的UDF接口,一个是复杂的GenericUDF接口。org.apache.hadoop.hive.ql. exec.UDF 基础UDF的函数读取和返回基本类型,即Hadoop和Hive的基本类型。如,Text、IntWritable、LongWritable、...原创 2018-08-25 09:37:46 · 887 阅读 · 0 评论 -
【Hive】开源Hive研究
待整理......时间 版本2009/4/30 0.3.02009/10/12 0.4.02009/12/17 0.4.12010/2/23 0.5.02010/10/29 0.6.02011/3/29 0.7.02011/6/21 0.7.12...原创 2018-10-22 23:00:08 · 495 阅读 · 0 评论 -
【Hive】HiveServer & HiveServer2 对比
HiveServer1的限制:用户并发性(不能处理多余一个客户端的并发请求)、LDAP安全性集成、HiveServer使用的Thrift接口导致限制HiveServer2在Hive1.1引入(HIVE-2935),提供更好的并发性、安全性、远程访问HiveServer2 架构基于一个ThriftService和任意数量由驱动程序、编译器和执行器组成的会话。MetaStore也是Hi...原创 2020-05-07 21:33:20 · 955 阅读 · 0 评论 -
【Hive】Hive数据倾斜
数据倾斜:hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案(1)key值发生倾斜,key值包含很多空值或异常值赋一个随机值来分散key,如果不需要也可以过滤掉或不适用该keyselectcasewhenuserid...原创 2019-10-29 00:09:32 · 284 阅读 · 3 评论 -
【Hive】Hive高级聚合(grouping sets、rollup、cube)
Hive高级聚合(0.10开始支持)高级聚合功能相当于group by 加强grouping sets:多个group by 进行union all,在同一个数据集进行多重group by 该关键字可以实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达,它仅仅使用一个stage完成这些操作。GRO...原创 2019-09-17 23:14:00 · 1275 阅读 · 0 评论 -
【Hive】Hive返回码状态含义
返回码意义:code=0 job成功执行code=1 提交job失败 或者 job运行时抛出异常时会返回的异常码code=2 提交job和运行job时没有抛出异常,但是job运行时map阶段或者reduce阶段抛出RuntimeExeception时会抛出的异常, 一般是各operator处理具体每一行数据时出现的Hive异常code=3...原创 2019-09-16 23:38:40 · 1137 阅读 · 0 评论 -
【Hive】开源Hive基准测试工具使用(hive-testbench-hive14)
Hive基准测试工具工具,可用来造数测试Hive基本性能Github:https://github.com/hortonworks/hive-testbench/TPC-DS:提供一个公平和诚实的业务和数据模型,99个案例 TPC-H:面向商品零售业的决策支持系统测试基准,定义了8张表,22个查询wget https://github.com/hortonworks/hive-tes...原创 2019-04-21 00:53:41 · 3688 阅读 · 0 评论 -
【Hive】Hive调优梳理
Hive调优梳理:高效的文件格式 中间压缩格式GZip压缩率高,消耗CPU更高 Snappy压缩率和CPU消耗更均匀根据业务创建分区表 根据业务创建分桶表保证map扫描尽量少高效的文件格式 压缩格式 列裁剪 分区裁剪 分桶保证map传给reduce的数据量尽量小 1. 避免笛卡尔积 2. 谓词下推set hive.opt...原创 2019-05-05 22:05:38 · 802 阅读 · 0 评论 -
Hadoop学习笔记(四)(Hive)
Hive:解决结构化日志数据统计问题,构建在数据仓库中,定义了HQL语言(类似SQL)通常进行离线数据处理 统一元数据管理 有超大数据集设计的计算,存储扩展能力 Hive底层的执行引擎有:MapReduce、Tez、Spark Hive on MapReduce Hive on Tez Hive on SparkHive支持多种压缩格式、存储格式压缩...原创 2018-08-31 19:34:25 · 502 阅读 · 0 评论 -
hive update和delete报错Attempt to do update or delete using transaction manager
转载自@levy_cui默认在hive中没有默认开启支持单条插入(update)、更新以及删除(delete)操作,需要自己配置。而在默认情况下,当用户如果使用update和delete操作时,会出现如下情况:hive>update dp set name='beijing' where id=1159;FAILED:SemanticException [Error1029...转载 2018-08-17 10:00:24 · 19096 阅读 · 4 评论 -
【Hive】Hive补充(HcatLog、CBO、压缩方式)
参考《Hive实战》ASF是一个支持多种软件开发项目的组织Hive不是数据库,而是一个友好且为我们熟悉的接口,可以查询存储在HDFS上的底层数据文件SerDe:序列化、反序列化HCatlog促进了各种Hadoop组件之间实现模式共享,HCatlog的作用包括:为多种工具提供一种通用模式环境 允许各种工具通过连接器连接,进而从Hive仓库读取数据和向其写入数据 使用户可以.........原创 2019-07-31 00:08:33 · 1411 阅读 · 0 评论 -
【Hive】Hive内核思考--HiveServer2与MetaStore交互
https://imcoder.site/a/detail/HuQSdax;jsessionid=52D29613D30DB508B778A3EC483CD3F7图访问逻辑:metastore服务可以理解为就是thrifht服务,hiveserver2启动的时候实际上是开启ThriftCliService服务客户端去连hive服务的时候是通过jdbc连接hive然后连接metasto...原创 2020-02-02 12:42:34 · 769 阅读 · 2 评论 -
【解决方案】【Hive】Hive压缩文件格式转换方案
目标:将Hive中已经存在的Lzo压缩格式表转换为Orc格式,并保证数据不丢失执行与测试过程:1. 创建lzo相关表:(验证过程,可忽略)create external table test_lzo(id int)partitioned by(`date_par` string)ROW FORMAT SERDE'org.apache.hadoop.hive.serde...原创 2019-09-10 10:59:50 · 560 阅读 · 0 评论 -
【Hive】Hive Hooks
转载自https://blog.csdn.net/rlnlo2pnefx9c/article/details/818442171. 什么是Hoooks?Hook是一种在处理过程中拦截事件,消息或函数调用的机制。 Hive hooks是绑定到了Hive内部的工作机制,无需重新编译Hive。从这个意义上讲,提供了使用hive扩展和集成外部功能的能力。换句话说,Hive hadoop可用于在查询......转载 2019-03-29 16:58:59 · 1862 阅读 · 0 评论