hive
文章平均质量分 72
javastart
专注于大数据 AI
展开
-
hive 性能优化案例收集
1.2.原创 2023-06-14 09:45:57 · 185 阅读 · 0 评论 -
大数据开发之Hive调优技巧
大数据开发之Hive调优技巧转载 2022-08-16 18:29:35 · 271 阅读 · 0 评论 -
hive存储格式parquet
hive存储格式parquet原创 2022-07-19 13:15:00 · 2173 阅读 · 0 评论 -
hive udf使用及踩坑
hive udf使用及踩坑原创 2022-07-03 15:08:28 · 1509 阅读 · 0 评论 -
0014-HIVE中的TIMESTAMP类型日期与IMPALA中显示不一致分析
0014-HIVE中的TIMESTAMP类型日期与IMPALA中显示不一致分析转载 2022-06-28 13:43:00 · 312 阅读 · 0 评论 -
Hive的联级(cascade)- 修改分区表的字段类型或者增加新字段
一、问题描述踩坑:数仓的分区表,由于需求需要,要把int类型的字段改为bigint,我直接执行的以下语句: alter table table_name change column 字段 字段 bigint;出现的问题:之后的分区数据可以正常的显示,历史数据查出来的数据为0,无论insert overwrite重新导数据、把有问题的分区数据删掉都不能正常显示。尝试了在原来基础上执行:alter table table_name change column 字段 字段 bigin转载 2021-12-29 18:51:41 · 4649 阅读 · 0 评论 -
基于Hive进行数仓建设的资源元数据信息统计:Hive篇
在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类:技术元数据,如表的存储结构结构、文件的路径 业务元数据,如血缘关系、业务的归属 过程元数据,如表每天的行数、占用HDFS空间、更新时间而基于这3类元数据"搭建"起来的元数据系统,通常又会实现如下核心功能:1. 血缘关系如表级别/字段级别的血缘关系,这些主要体现在我们日常的SQL和ETL任务里。2. 大数据集群计算资源管理针对利用不同的计算引擎如Spark/Flink/Ma..转载 2021-11-11 17:10:29 · 992 阅读 · 0 评论 -
Hive 事务管理避坑指南
2017 年 4 月 09 日技术管理语言 & 开发架构1 简介Hive 作为 Hadoop 家族历史最悠久的组件之一,一直以其优秀的兼容性支持和稳定性而著称,越来越多的企业将业务数据从传统数据库迁移至 Hadoop 平台,并通过 Hive 来进行数据分析。但是我们在迁移的过程中难免会碰到如何将传统数据库的功能也迁移到 Hadoop 的问题,比如说事务。事务作为传统数据库很重要的一个功能,在 Hive 中是如何实现的呢?Hive 的实现有什么不一样的地方呢?我们将传统数转载 2021-10-18 15:28:59 · 635 阅读 · 0 评论 -
元数据管理-hive表Statistics信息获取
本文链接:https://blog.csdn.net/songjifei/article/details/1047067371概述表的基础信息维护展示是数据仓库元数据管理的主要内容之一,对于hive来说如表名,表注释,内外表类型,列的字段名、字段类型、字段备注、是否是分区字段,存储文件类型,压缩格式等信息,这些都是在建表时就可以获取的。还有一些和表中数据存储相关的信息,比如行数,文件数,压缩前后存储大小等信息是随着ETL数据变化而变化的,我们希望在ETL结束后能够获取这些最新信息到我们元数据管理转载 2021-07-20 10:25:22 · 612 阅读 · 0 评论 -
大多数开发人员都弄错的Hive与MapReduce小文件合并问题
本文链接:https://blog.csdn.net/qq_26442553/article/details/107094409 近来我们公司搞小文件治理(小于10Mb),小文件太多的危害就不此赘述了。公司的开发人员提供的合并小文件治理配置如下:-- 设置小文件合并set hive.merge.mapfiles=true;set hive.merge.mapredfiles=true;set hive.merge.size.per.task = 256000000 ;set...转载 2021-05-09 11:26:05 · 409 阅读 · 0 评论 -
hive之Json解析(普通Json和Json数组)
一、数据准备现准备原始json数据(test.json)如下:{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}{"movie":"661","rate":"3","timeStamp":"978302109","uid":"1"}{"movie":"914","rate":"3","timeStamp":"978301968","uid":"1"}{"movie":"3408","rate":"4","timeStam原创 2020-11-18 16:33:01 · 1496 阅读 · 0 评论 -
hive/beeline session过期时间
本文链接:https://blog.csdn.net/zhouyan8603/article/details/99351516版权This article explains how to configure the following settings in Hive:hive.server2.session.check.intervalhive.server2.idle.operation.timeouthive.server2.idle.session.timeout1...转载 2020-10-08 14:56:51 · 1263 阅读 · 0 评论 -
hive2.0的LLAP特性及DPC-H数据性能测试测试
本文链接:https://blog.csdn.net/zilianxiaozhu/article/details/80320759版权1. hive2.x新功能及 LLap 特性介绍 1. (对于hive的介绍我就不多说了)hive 2.1 发布后增加了许多新功能,官网里面提到了以下几点(翻译):使用Hive LLAP进行交互式查询。 LLAP在Hive 2.0中引入,在Hive 2.1中进行了改进,使其性能比Hive 1提高了25倍 强大的SQL ACI...转载 2020-09-14 13:42:12 · 658 阅读 · 0 评论 -
hive整合sentry,impala,hue之后权限管理操作
原文链接:http://www.cnblogs.com/gxc2015/p/9597270.html版权7.Hive授权参考(开启sentry之后,对用户授权用不了,只能针对用户组,grant role testrole to user xxxxxxx; )7.1:角色创建和删除create role star_read;drop role star_read;grant role star_read to group star_read;7.2:角色授权和取消授...转载 2020-09-08 17:35:29 · 469 阅读 · 0 评论 -
CDH 配置 Sentry 服务
1. 启用Sentry服务前 设置 Hive Warehouse 目录权限 要点:启用 HDFS / Sentry同步无需在Hive仓库目录上显式设置权限。启用同步后,所有 Hive 数据库和表在HDFS底层文件系统上都归属 hive : hive 。 Sentry 会把表的权限自动转换为 HDFS 底层文件的 ACL。 Hive的仓库目录 /user/hive/warehouse 或者在 hive-site.xml 中指定的 hive.metastore.warehouse.dir ...转载 2020-09-08 10:50:50 · 862 阅读 · 0 评论 -
Hive合并小文件详解
Hive合并小文件,减小map数配置文件中设置的参数的含义1.限制Map,Reduce数map/reduce 限制Map,Reduce数 map set mapreduce.tasktracker.map.tasks.maximum=30; --每个nodemanager节点上可运行的最大map任务数,默认值2,可根据实际值调整为10~100; reduce set mapreduce.tasktracker.reduce.tasks.maximum=30; --每个n原创 2020-06-11 13:40:06 · 1626 阅读 · 0 评论 -
Hive0.13到Hive2.1跨版本升级全姿势
作者:饿了么数据架构组Hive是业界大数据平台使用最广泛的SQL引擎,提供了一层SQL抽象接口和一套元数据规范, 将SQL查询翻译为分布式的计算作业,支持MapReduce/Spark/Tez等多种计算引擎。 同时Hive定义的元数据标准已经成为了一种事实标准,业界流行的大数据SQL引擎均对Hive元数据进行了兼容和支持。前一段时间我们饿了么数据架构团队对Hive进行了一次从0.13版本到2.1版本的跨版本升级,升级期间遇到了一些问题, 但是基本做到了可灰度、可控制和升级期间稳定性保证,同时服...转载 2020-05-18 18:10:38 · 742 阅读 · 0 评论 -
hive 批量添加,删除分区
一.批量添加分区:use bigdata;alter table siebel_memberadd if not existspartition(dt='20180401') location '20180401'partition(dt='20180402') location '20180402'partition(dt='20180403') location '20...原创 2020-03-26 08:50:13 · 7386 阅读 · 0 评论 -
671-6.2.0-如何将CDH5.12的Hive元数据迁移到CDH6.2
1文档编写目的这里我们假定一个场景,你需要迁移CDH5.12到CDH6.2,CDH5.12和CDH6.2分别是两个不同的集群,我们的工作主要是HDFS数据和各种元数据从CDH5.12迁移到CDH6.2,本文不讨论HDFS数据的迁移也不讨论其他元数据的迁移比如CM或Sentry,而只关注Hive元数据的迁移。这里的问题主要是CDH5.12的Hive为1.1,而CDH6.2中Hive已经...转载 2020-02-26 17:48:13 · 452 阅读 · 0 评论 -
Hive 版本升级记录(0.13.0 -> 2.3.3)
背景:我们这边有线上线下两套hive, 版本:0.13.0,由于版本较低,近期准备升级新的hive版本。首先选择升级线下hive集群:线下 hive 集群覆盖较广,牵扯大概10台左右客户端, 覆盖公司所有的技术部门业务数据。 每天通过客户端或者azkaban上传作业 1w 左右的任务量.meta store 包含分区大概700w左右的量。业务量重,而且 sql 变化较多,...转载 2020-02-26 16:14:40 · 1180 阅读 · 0 评论 -
优化 hive.fetch.task.conversion
我们在执行hive代码的时候,一条简单的命令大部分都会转换成为mr代码在后台执行,但是有时候我们仅仅只是想获取一部分数据而已,仅仅是获取数据,还需要转化成为mr去执行吗?那个也太浪费时间和内存啦,所以有一个hive的配置如下图所示: 我们会发现这个属性所对应着两种模式,minimal和more。 在minimal下,我们执行select * ,limit...转载 2020-02-11 15:38:42 · 480 阅读 · 0 评论 -
Hive metastore整体代码分析及详解
配置:我们的hive server2 目前配置有2个节点,每个节点上都有metastore和hiveeserver2 服务。这就几天在排查hivemetastore 告警问题,由于hivemetastore 采用的是thrift 结构,对thrift 进行了了解,而本告警日志中timed out wait request for id 11202249. Server Stacktr...原创 2019-08-19 16:11:26 · 3437 阅读 · 0 评论 -
hive实现设置reduce个数的方法
hive实现设置reduce个数的方法方法/步骤 1. Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)hive.exec....转载 2019-06-10 15:57:57 · 9597 阅读 · 2 评论 -
关于Hive优化的四种方法总结
问题导读:1、Hive整体架构优化点有哪些?2、如何在MR阶段进行优化?3、Hive在SQL中如何优化?4、Hive框架平台中如何优化?一、整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。 整体架构优化点:1、根据不同业务需求转载 2016-08-31 19:21:25 · 30066 阅读 · 0 评论 -
HiveMetaStore模块代码分析及多个节点压力测试
从package结构来看,主要的5个package,让我们来看看这几个package的内容(1)m有点etastore:是metastore模块的入口,也是整个metastore模块的核心所在,里面包含了HiveMetaStore类作为整个模块的核心,接收来自hive的请求,返回需要的信息。从package结构来看,主要的5个package,让我们来看看这几个package的内容(2)...转载 2019-08-20 16:01:27 · 2097 阅读 · 0 评论 -
Hive架构和工作原理
一、Hive 架构下面是Hive的架构图。Hive的体系结构可以分为以下几部分:1、用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive Server。在启动 Client模式的时候,需要指出Hive Server所在节点,并且在该节点启动Hive Serv...转载 2019-08-16 11:38:26 · 4737 阅读 · 0 评论 -
Datanucleus 应用
在排查hivemetastore 时,对它详细了解,看到用到Datanucleus,对它也进行了解,详细了解这个方面应用,看到下面官网资料比较详细。希望测底研究的朋友,进行详细了解。JDO : CachingCaching is an essential mechanism in providing efficient usage of resources in many systems....原创 2019-08-23 14:35:14 · 1548 阅读 · 0 评论 -
Hive 调优总结
一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;默认值:strict 描述:strict是避免全分区字段是动...原创 2017-08-05 17:25:01 · 544 阅读 · 0 评论 -
用例: 如何实现 Hive 挂钩以优化数据湖
有关数据的数据数据湖和数据沼泽之间的重要区别是谨慎组织的数据导致一个有效的湖泊, 而沼泽只是数据, 要么是过度复制或孤立的用户。 获取有关如何跨组织使用生产数据的信息不仅有利于构建一个组织良好的数据湖, 而且还将帮助数据工程师微调数据管道或数据本身。为了了解数据的使用方式, 我们需要找出一些基本问题的答案, 如:哪些数据集 (表/视图/DBs) 经常访问? 查询何时运行最频繁?...转载 2019-05-23 16:36:58 · 322 阅读 · 0 评论 -
数据存储text转parquet及引发的OOM问题
1.数据转parquet的后效果 table1为textfile格式存储的表,分区20161122转换之前大小约400M,分别以parquet无压缩,parquet snappy压缩和parquet gzip压缩,转换到parquet格式的表table1_parquet的20161122,20161123,20161124三个分区。Java代码 (1)insert in...转载 2019-01-03 17:07:50 · 1699 阅读 · 0 评论 -
hive中alter table的用法详解
ALTER TABLE 语句2011-07-22 11:02ALTER TABLE 语句用于在已有的表中添加、修改或删除列。1 . ALTER TABLE table_name ADD column_name datatype2. ALTER TABLE table_name DROP COLUMN column_name3.转载 2017-03-10 16:43:32 · 21917 阅读 · 0 评论 -
Hive用户权限管理理解
Hive用户权限管理理解2016-05-04 09:14 3300人阅读 评论(0) 收藏 举报 分类:Big data(60) 版权声明:本文为博主原创文章,未经博主允许不得转载。HiverServer2支持远程多客户端的并发和认证,支持通过JDBC、Beeline等连接操作。Hive默认的Derby数据库,由于是内嵌的文件数据库,转载 2017-01-16 20:36:34 · 2469 阅读 · 0 评论 -
hive权限用Sentry详细使用测试文档
捐助大数据系列零基础由入门到实战视频大优惠 问题导读1.hive权限控制需要配置那个配置文件? 2.Hive授权的核心是什么? 3.如何实现 角色的授权和撤销? Hive从0.10版本(包含0.10版本)以后可以通过元数据来控制权限,Hive-0.10之前的版本对权限的控制主要是通过Linux的用户和用户组来控制,不能对Hive表的CREATE、SELEC...转载 2017-01-16 20:34:30 · 1472 阅读 · 0 评论 -
Hive SQL执行计划深度解析
Hive SQL执行计划深度解析2014-06-17 11:12 1595人阅读 评论(0) 收藏 举报 分类:hadoop&hive(21) 目录(?)[+]美团网技术陈纯大作,值得拥有。Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的转载 2017-01-11 08:40:14 · 991 阅读 · 0 评论 -
Hive 设置map 和 reduce 的个数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有转载 2016-10-09 17:07:41 · 833 阅读 · 1 评论 -
Hive JSON数据处理的一点探索
背景 JSON是一种轻量级的数据格式,结构灵活,支持嵌套,非常易于人的阅读和编写,而且主流的编程语言都提供相应的框架或类库支持与JSON数据的交互,因此大量的系统使用JSON作为日志存储格式。 使用Hive分析数据(均指文本)之前,首先需要为待分析的数据建立一张数据表,然后才可以使用Hive SQL分析这张数据表的数据。这就涉及到我们如何把一行文本数据映射为数据表的列,常规的方式有两种: (1转载 2016-04-19 22:19:01 · 7089 阅读 · 1 评论 -
Hive外部分区表加载flume打到hdfs上文件,读不到.tmp文件
Hive外部分区表加载flume打到hdfs上文件,读不到.tmp文件转载 2016-04-14 14:10:39 · 2887 阅读 · 0 评论 -
操作技巧:将 Spark 中的文本转换为 Parquet 以提升性能
操作技巧:将 Spark 中的文本转换为 Parquet 以提升性能列式存储布局(比如 Parquet)可以加速查询,因为它只检查所有需要的列并对它们的值执行计算,因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项,因此可以显著减少磁盘上的存储。0评论:JESSE F. CHEN, 软件工程师关闭 [x]转载 2016-03-28 17:30:27 · 8751 阅读 · 1 评论 -
Hive数据导入方案—使用ORC格式存储hive数据
目的:将上网日志导入到hive中,要求速度快,压缩高,查询快,表易维护。推荐使用ORC格式的表存储数据思路:因为在hive指定RCFile格式的表,不能直接load数据,只能通过textfile表进行insert转换。考虑先建立txtFile格式内部临时表tmp_testp,使用hdfs fs -put命令向tmp_testp表路径拷贝数据(不是load),再建立ORC格式外部表http_转载 2016-03-27 17:58:27 · 20953 阅读 · 1 评论 -
hive0.14-insert、update、delete操作测试
问题导读1.测试insert报错,该如何解决?2.hive delete和update报错,该如何解决?3.什么情况下才允许delete和update?首先用最普通的建表语句建一个表:hive>create table test(id int,name string)row format delimited fields terminat转载 2016-03-24 18:54:21 · 2822 阅读 · 0 评论