hive
文章平均质量分 59
勇者1108
多实践
展开
-
hive问题总结
1. could only be written to 0 of the 1 minReplication nodes. There are 14 datanode(s) running and no node(s) are excluded in this operation表象是磁盘不够、网络不稳定,是yarn的jar包副本为10,在ambari中修改副本为2,问题解决2. hive使用decimal的时候会出现Error evaluating _col0,可以改成double3.原创 2021-07-15 11:40:33 · 2165 阅读 · 1 评论 -
构建数据仓库(一)
### 写在前面**数据仓库**(Data Warehouse)是一个**面向主题**的(Subject Oriented)、**集成**的(Integrated)、**相对稳定**的(Non-Volatile)、**反映历史变化**(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。近年来,随着大数据的应用不断深入,构建企业级数据仓库成为了企业进行**精细化运营**的一种趋势。从管理者的视角来看,数据仓库是赋能业务并辅助决策的一种工具,从开发者的原创 2021-07-13 16:49:51 · 201 阅读 · 1 评论 -
数据倾斜(一)之产生原因
#### 数据倾斜产生原因概述我们以Spark和Hive的使用场景为例。他们在做数据运算的时候会涉及到,count distinct、group by、join on等操作,这些都会触发Shuffle动作。一旦触发Shuffle,所有相同key的值就会被拉到一个或几个Reducer节点上,容易发生单点计算问题,导致数据倾斜。一般来说,数据倾斜原因有以下几方面:key分布不均匀业务数据本身的特性建表时考虑不周某些SQL语句本身就有数据倾斜Shuffle与数据倾斜Hadoop和Spark在Sh原创 2021-07-13 16:48:49 · 308 阅读 · 0 评论 -
hive的explain命令
显示抽象语法树```sqlEXPLAIN SELECT * from dby_pro.test1;```## explain该命令可以返回hive的查询执行计划。不需要执行查询。查询计划包含三个部分,1.ASTAbstract syntax tree (AST).抽象语法树。通过ANTLR类库生成。2.Stage dependencies:阶段依赖。用来执行查询的依赖列表。3.Stage plans阶段计划。## 实例在 hive cli 中输入以下命令(hive 2.3.7原创 2021-07-13 16:41:33 · 381 阅读 · 0 评论 -
基尼系数的手工计算
基尼系数通常衡量一个国家或地区居民收入差距的常用指标。同样基尼系数也可以衡量影响因素差距的目标。基尼系数衡量一个某些因素差距的常用指标。基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高。第一步:计算出差值、影响程度、前期值占比、斜率、环比波幅 差值=7月份的值-6月份的值 影响程度=某个差值/差值的总和 前期值占比=6月份的值/6月份的总和 斜率=影响程度/前期值占比 环比波幅=差值/6月份的值 2020...原创 2020-08-27 11:11:26 · 1587 阅读 · 1 评论