hive
文章平均质量分 74
一代码动乾坤
目前主攻大数据领域的专家。熟悉DSP,DMP等常见在线广告体系、视频新媒体、下线实体数字化、企业级数据管理、数据治理、AI等领域有深耕。最终目标成为一名全栈代码扫地僧。望与大家共勉,一起将快乐代码做成终生事业!
展开
-
如何数仓维度模型详解-Kimball
数仓模型设计详细讲解来源:51cto 作者:大数据老哥前言今天给大家分享下数仓中的模型设计,一个好的数仓项目首先看一下它的架构以及他所用到的模型,它们使用的模型也都是非常巧妙的,好了,我们话不说到直接开始。一、维度建模基本概念维度模型是数据仓库领域大师Ralph Kimall所倡导,他的《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查...转载 2021-10-27 22:18:36 · 257 阅读 · 0 评论 -
CDH管理界面查看各组件的版本
CDH管理界面查看各框架的版本(hive为例)2016年05月27日 11:30:56levy_cui阅读数:19203版权声明:原创文章,欢迎转载但请备注来源及原文链接 https://blog.csdn.net/levy_cui/article/details/51513900安装好的CDH如果查看hive的版本呢,1、官网2、管理界面中官网查看一般看到的都...原创 2019-02-27 14:50:55 · 9376 阅读 · 1 评论 -
hive数仓sql面试题2021
一、求单月访问次数和总访问次数1、数据说明数据字段说明用户名,月份,访问次数数据格式A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,12、...原创 2021-10-21 22:51:01 · 835 阅读 · 0 评论 -
hive数仓常见面试题2021
1|0面试题:hive 内部表和外部表的区别? hive 是如何实现分区的? Hive 有哪些方式保存元数据,各有哪些优缺点? hive中order by、distribute by、sort by和cluster by的区别和联系 hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别? hive 如何优化?2|0hive 内部表和外部表的区别?未被external修饰的是内部表(managed table),被external修..原创 2021-10-22 10:00:00 · 646 阅读 · 0 评论 -
大数据:阿里数据仓库建模及管理体系OneData什么是阿里onedata
阿里onedata面对炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性,一直是大数据系统建设不断追求的方向。 数据仓库模型实施过程: 首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。这是数据仓库建设的基石,业务调研和需求分析做得是否充分直接决定了数据仓库建设是否成功; 其次,进行数据总体架构设计,主要根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵、抽象出业务过程和维度;原创 2021-10-20 00:10:45 · 2761 阅读 · 1 评论 -
数据仓库和数据集市的概念、区别与联系
数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度。并且数据仓库中的数据时间跨度大,从几年甚至到几十年,称为历史数据(一般公司会保存1年的历史数据)。• 数据仓库中的数据必须以一定时间段为单位进行统一更新。–不断增加新的数据内容–不断删去旧的数据内容–更新与时间有关的综合数据数据集市建立数据集市的原因:数据仓库是一种反映主题的全局性数据组织(一般企业都会建立有企业级的数据仓库)。但是,全局性数据仓库往往太大,在实际应用中将它们按.原创 2021-10-19 19:58:19 · 1144 阅读 · 0 评论 -
hdfs-bug:DataXceiver error processing WRITE_BLOCK operation
报错信息以及截图如下:calculation112.aggrx:50010:DataXceiver error processing WRITE_BLOCK operation src: /10.1.1.116:36274 dst: /10.1.1.112:50010java.io.IOException: Premature EOF from inputStream at org.apache.hadoop.io.IOUtils.readFully(IOUtils.java:203)原创 2021-10-19 19:14:24 · 1877 阅读 · 0 评论 -
[ERROR] Terminal initialization failed; falling back to unsupported java.lang.IncompatibleClassChang
1.安装hive后无法启动,报错如下[ERROR] Terminal initialization failed; falling back to unsupported java.lang.IncompatibleClassChangeError: Found class jline原因是hadoop目录下存在老版本jline:/hadoop-2.6.5/share/hadoop/yarn/lib:-rw-r--r-- 1 wkz wkz 87325 Mar 10 18:10 jline-原创 2021-10-18 10:05:00 · 333 阅读 · 0 评论 -
Hive.GROUPING SETS
如果说聚合函数(Simple UDAF / Generic UDAF)是HQL聚合数据查询或分析的中枢处理器,那GROUP BY可以说是聚合函数的神经了,GROUP BY收集和传递材料,然后交给聚合函数们去处理。这些材料的组织形式显得尤为重要,它们表达着分析者想要的观察维度或视角,管理着聚合函数们的操作对象。 而分析者经常想要在一次分析中从多个维度去获得分析数据,对包含多个维度或多级层次的分析,上卷(roll up)或下钻(drill down)一类就很有分析价值。 我们有时...转载 2021-10-15 17:12:45 · 174 阅读 · 0 评论 -
Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory
异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container.spark-submit提交脚本:[spark@master work]$ more submit.sh #! /bin/bashjars=""for file原创 2020-10-26 16:50:33 · 788 阅读 · 0 评论 -
Hive创建临时表
Hive从0.14.0开始提供创建临时表的功能,表只对当前session有效,session退出后,表自动删除。相关语法:CREATE TEMPORARY TABLE ...实例:注意要点:1、如果创建的临时表表名已存在,那么当前session引用到该表名时实际用的是临时表,只有drop或rename临时表名才能使用原始表2、临时表限制:不支持分区字段和创建索引从Hive1.1开始临时表可以存储在内存或SSD,使用hive.exec.temporary.table.st.原创 2020-10-23 14:47:21 · 2939 阅读 · 0 评论 -
hive3新特性
1,Hive 3新特性一:不再支持Mr,取而用Tez查询引擎,且支持两种查询模式:Container和LLAP2,Hive 3新特性二:Hive CLI不再支持(被beeline取代)3,Hive 3新特性三:SQL Standard Authorization不再支持,且默认建的表就已经是ACID表。4,Hive 3新特性四:支持 “批查询”(TEZ)或者 “交互式查询”(LLAP)。Hive 3其他特性:1、物化视图重写;2、自动查...原创 2020-09-28 09:40:40 · 1838 阅读 · 0 评论 -
星型模型和雪花型模型区别
星型模型和雪花型模型区别一、概述在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“事实表”上时,整个图解就像星星一样,故将该模型称为星型模型,如图 1 。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家 A省 B 的城市 C 以及国家 A 省 B ..转载 2020-08-13 18:56:00 · 460 阅读 · 0 评论 -
hive内部表转外部表
hive内部表和外部表之间的相互转换背景在对hive进行进一步了解的同时,发现了hive的内部表和外部表可以通过更改属性进行转换,并且不会因为数据量大小影响转换的性能实现内部表转外部表alter table xm_testA set TBLPROPERTIES ('EXTERNAL = true')外部表转换内部表alter table xm_testB set TBLPR...转载 2020-03-13 17:10:43 · 1807 阅读 · 0 评论 -
hive数据倾斜怎么办
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的...转载 2020-03-13 14:30:18 · 214 阅读 · 0 评论 -
hive SQL基础经典练习题(上)
hive SQL基础经典练习题(上)hive SQL 入门容易,精通很难。基础的巩固相当重要,看起来简单易入门的SQL其实是千变万化的,能一次写正确SQL的工程师,亦然遵守二八法则。编程环境:hive 创建练习题数据(一)表1 COURSE (课程表)create table COURSE(`CNO` string comment '课程编号',`CN...转载 2019-12-03 11:59:02 · 2975 阅读 · 0 评论 -
最新hive删除数据;删除分区;删除库表
最新 hive删除数据、删除分区、删除库表## 删除库drop database if exists db_1 ;## 强制删除库drop database if exists db_1 cascade;## 删除表drop table if exists t_user ;## 清空表数据truncate table t_user ;## 清空表,...原创 2019-11-25 18:44:36 · 325 阅读 · 0 评论 -
hive Union all 优化
https://www.cnblogs.com/end/archive/2013/01/15/2861448.html优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。...转载 2019-11-18 09:50:24 · 2158 阅读 · 0 评论 -
hive metastore & hiveserver2 后台运行
1-先启动metastore nohuphive--servicemetastore-p9083>/dev/null& --------建议等30秒以上, 2-然后启动 hiveserver2 nohup hive --service hiveser...原创 2019-11-15 10:45:00 · 726 阅读 · 0 评论 -
安装hive3报错java.lang.NoSuchMethodError:
hive报错:java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V(已解决)报错详情:从报错信息来看:一,java.lang.NoSuchMethodError 原因:1.系统找不到相关jar...原创 2019-11-14 14:33:19 · 1965 阅读 · 3 评论 -
hive增加表字段
增加字段ALTER TABLE tb_a ADD COLUMNS(name STRING);修改字段位置ALTER TABLE tb_a CHANGE COLUMN name name STRING AFTER hav_coin;原创 2019-11-06 14:38:59 · 1352 阅读 · 0 评论 -
hive日期函数转化
1、to_date:日期时间转日期函数select to_date('2015-04-02 13:34:12');输出:2015-04-02122、from_unixtime:转化unix时间戳到当前时区的时间格式select from_unixtime(1323308943,’yyyyMMdd’);输出:20111208123、unix_timestamp:获取当前uni...原创 2019-04-12 10:19:31 · 2684 阅读 · 1 评论 -
hive优化小结
hive的查询注意事项以及优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ....原创 2019-04-08 18:00:36 · 156 阅读 · 0 评论