![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
Lv_Hulk
从“0”到“1”!
展开
-
一文搞定hive的参数 配置
hive 配置参数说明背景:由于新搭建的集群不稳定,数据仓库hive会报各种莫名其妙的的错误,有一些错误可以通过加参数完美解决掉,废话少说,直接上干货!1.hive.exec.mode.local.auto决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行)默认值:true2.hive.exec.mode.local.auto.inputbytes.max如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地原创 2020-07-11 16:32:13 · 1050 阅读 · 0 评论 -
Hive批量删除一段时间分区和动态分区更新数据
Hive批量删除一段时间分区和动态分区更新数据1.hive动态分区-- 批量删除分区数据alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >="20191101",dt <='20191130')-- 开启动态分区SET hive.exec.dynamic.partition=true; --开启动态分区,默认是falseSET hive.exec.dynamic.partition.mode=non原创 2020-07-05 15:45:41 · 4300 阅读 · 0 评论 -
hive锁的问题
hive锁的问题最近在insert into 插入数据的时候遇到了hive锁表的问题,下面是报错信息,原因就是一张hive的临时表被锁造成报错。1.Hive中定义了两种锁的模式:共享锁(S)和排它锁(X),顾名思义,多个共享锁(S)可以同时获取,但是排它锁(X)会阻塞其它所有锁。如果select一张表,这张表则会进入shared模式,增加、插入、删除、修改数据和修改表名等操作都会在shared锁被释放之后再执行,会一直等待。如果插入、删除、修改数据则进入Exclusive锁模式,进入排他锁模式之原创 2020-06-27 22:49:33 · 856 阅读 · 0 评论 -
数据中台之OneData体系
数据中台之OneData体系 知其然知其所以然,本篇的博文总结和自己公司现在用到的数据中台的OneData的体系类似,使用的情景也很相似,所以我就把它放到自己的博文里,不仅自己可以重温一下,同时也可以帮到那些同样使用OneData数据中台的同学。背景随着公司业务的发展,频繁迭代和跨部门的垂直业务单元转载 2020-06-14 14:57:34 · 2112 阅读 · 0 评论 -
踩过数据仓库hive的坑:hive设置严格模式
踩过数据仓库hive的坑:hive设置严格模式hive提供了一个严格模式,可以防止用户执行那些可能产生意想不到的不好的效果的查询,也可以很好的防止数据倾斜。即某些查询在严格模式下无法执行。通过设置hive.mapred.mode的值为strict,可禁止以下3种类型的查询。1)带有分区的表的查询如果在一个分区表执行hive,除非where语句中包含分区字段过滤条件来显示数据范围,否则不允许执行。换句话说,就是用户不允许扫描所有的分区。进行这个限制的原因是,通常分区表都拥有非常大的数据集,而且数据增原创 2020-06-14 14:31:33 · 1659 阅读 · 0 评论 -
hive中的模糊匹配之like的用法
hive中的模糊匹配之like的用法现在看一段Hsql,执行时会报错吗?select * from ods.ods_sjc_events_rtwhere event like '%OCR%';答案是显而易见的,这样的写法在MySQL中是不会报错的,但在hive中就会报错,由于hive会将一些特殊字符作转义处理,导致某些语句无法通过传统sql语法实现。例如要筛选某字段中所有带’OCR...原创 2020-02-25 16:20:50 · 47430 阅读 · 1 评论 -
hive集群中间(临时)表定时清理shell脚本
hive集群中间(临时)表定时清理shell脚本#!/bin/sh#######hive集群中间表定时清理脚本################databases="odb pdb"#####hive集群中所有库库名stime=`date +%s`#记录当前时间for db in $databasesdo#遍历所有库echo "=========================...原创 2020-01-16 22:25:54 · 864 阅读 · 0 评论 -
hive sql常用技巧
1.多行合并多行合并常用于做区间统计,通过定义一定的金额区级,将上亿的记录降维为不同区间内总数。概括来说就是多映射到一。典型场景:基于用户交易天流水,计算每天不同金额段的金额笔数。如用户的天交易流水表结构如上,需要计算出交易额在0-100,100-200,200-300,大于300几个区级的笔数,CREATE VIEW t_deal_tmp_view_1 ASSELECT CAS...原创 2020-01-01 22:21:02 · 288 阅读 · 0 评论 -
hive中的空值处理
hive中的空值处理用Sqoop往MySQL同步数据时,由于hdfs存储的数据中有null值或’’,导致同步数据失败。主要是hive sql中的空值造成的,所以今天就说一下怎么解决这个问题。一.hive中空值分两种(1)NULLhive中null实际在HDFS中默认存储为’\N’,通过查询显示的是’NULL’。这时如果查询为空值的字段可通过语句:aaa is null 或者 aaa =’...原创 2019-12-29 10:58:19 · 18222 阅读 · 0 评论 -
hive调优
hive调优一.针对于Hive内部调优的一些方式01.请慎重使用COUNT(DISTINCT column)*原因:*distinct会将b列所有的数据保存到内存中,形成一个类似hash的结构,速度是十分的块;但是在大数据背景下,因为b列所有的值都会形成以key值,极有可能发生OOM;*解决方案:*可以考虑使用Group By 或者 ROW_NUMBER() OVER(PARTITION ...原创 2019-12-25 22:26:24 · 490 阅读 · 0 评论 -
Hive笔记(一)
1.定义:在Hadoop上的数据仓库基础架构2.兼容性:Hadoop生态圈3.依赖:JDK,Hadoop.4.适用的场景:hive并不适合那些需要低延迟的应用,例如联机事物处理(OLTP),Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业。5.Hive原理:Hive 依赖于 HDFS 存储数据...原创 2019-03-02 13:11:45 · 326 阅读 · 0 评论 -
Hive 数据倾斜与调优
Hive 数据倾斜与调优在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce...原创 2019-02-24 19:49:24 · 198 阅读 · 0 评论 -
基于Hadoop的一个数据仓库工具Hive的搭建
基于Hadoop的一个数据仓库工具Hive的搭建hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。(一)下载下载安装包地址:http://mirrors...原创 2019-02-24 12:46:41 · 1108 阅读 · 0 评论 -
Hive:数据仓库构建步骤
数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。 数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需...转载 2019-02-24 16:07:51 · 676 阅读 · 0 评论 -
数据仓库与数据集市建模
第二篇:数据仓库与数据集市建模 阅读目录前言维度建模的基本概念维度建模的三种模式实例:零售公司销售主题的维度建模更多可能的事实属性经典星座模型缓慢变化维度问题数据仓库建模体系之规范化数据仓库数据仓库建模体系之维度建模数据仓库数据仓库建模体系之独立数据集市三种数据仓库建模体系对比小结回到顶部前言&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;.原创 2019-02-24 16:59:47 · 1585 阅读 · 0 评论 -
Hive的数据模型和数据类型
数据模型Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:表(Table),外部表(External Table),分区(Partition),桶(Bucket)。注:如果不指定分割...原创 2019-02-24 17:09:11 · 1040 阅读 · 0 评论 -
Hive的使用总结
1、数据仓库数据仓库是数据库的清理和集成,是新型决策管理信息系统的解决方案。区分OLTP和OLAP:OLTP是联机事务处理,侧重于事务的实时处理,如CUD操作,由数据库辅助完成;OLAP是联机分析处理,支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,快速灵活的处理数据,直观易懂的查询数据结果。数据仓库一般包括:数据层、应用层(分析、处理、挖掘)、表现层下面是OLAP的大致过程:...原创 2019-02-24 18:02:21 · 144 阅读 · 0 评论 -
Hive 函数
Hive 函数Hive 内置函数1、内容较多,见《Hive 官方文档》https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF2、测试内置函数的快捷方式:第一种方式:直接使用,例如:select concat(‘a’,‘a’) aa第二种方式:1、创建一个 dual 表 create table du...原创 2019-02-24 18:55:38 · 605 阅读 · 0 评论 -
Hive基本操作
(一)DDL 操作1、建库 create database mydb; create database if no exists mydb; create database if no exists mydb location "/aa/bb";2、查询数据库 查询库列表:show databases; 查询库详细信息:desc database [extend...原创 2019-02-24 19:13:57 · 139 阅读 · 0 评论 -
Hive 自定义函数 UDF
Hive 自定义函数 UDF当 Hive 提供的内置函数无法满足业务处理需要时,此时就可以考虑使用用户自定义函数UDF(user-defined function)作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数)UDAF(用户定义聚集函数 User- Defined Aggregation Funcation):接收多个输入数据行,并产生一个输出数据行。(count,max...原创 2019-02-24 19:41:13 · 237 阅读 · 0 评论 -
Hive 数据仓库
Hive 数据仓库1 什么是数据仓库数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。2 数据仓库能干什么? 1 年度销售目标的指定,需要根据以往的历史报表进行决策,不能拍脑袋...转载 2019-02-24 12:00:11 · 227 阅读 · 0 评论