Hive数据仓库
主要是介绍一些简单的基础知识
First_____
这个作者很懒,什么都没留下…
展开
-
使用tez引擎出现内存溢出问题
tez引擎出现: java.lang.OutOfMemoryError: Java heap space 问题原创 2022-05-07 18:52:16 · 2404 阅读 · 2 评论 -
阿里云离线数仓
1.项目流程图使用框架说明:ECS云服务器;DataHub:类似于kafka的软件,可以做数据缓冲,削峰MaxCompute: 类似于hadoop+hive+ 定时调度的大数据计算框架;DataWorks: 是MaxCompute的视图管理框架;Quick BI: 做最后的可视化视图展示,倾向于离线数据的展示;DataV: 大屏幕视图展示框架, 倾向于实时的计算,更加的炫酷;RDS: RDS是云数据库的统称2. 框架的使用说明: 上面几个软件都是阿里云的收费,都可以在视图上直接进行原创 2022-04-02 15:54:47 · 1779 阅读 · 1 评论 -
001__Hive的安装启动
先在这里附上需要的安装包的下载地址hive下载官网mysql下载官网老规矩 ,下载前准备1.首先你的hadoop 集群要已经能够启动起来2. /opt/software 存放安装包 ; /opt/module 存放下载好的软件;(当然你也可以放在你想要放的其他的地方,但要注意路径问题)将下载好的hive的tar.gz包进行解压 tar -zxvf /opt/software/apache-hive-3.1.2-bin.tar.gz -C /opt/modu..原创 2021-06-09 15:24:02 · 373 阅读 · 0 评论 -
tez的 Container killed on request. Exit code is 143问题
今天遇到了一个tez的错误记录一下:在导入数据的时候出现了下面错误, 起初我以为是内存问题, 但一想,插入那么多数据都没问题,怎么插入几条数据就出现问题了呢?Container killed on request. Exit code is 143Container exited with a non-zero exit code 143Failing this attempt. Failing the application解决分析: 我查了查原表的数据和分区, 才发现原表的这个分区根本就没原创 2021-12-01 09:21:32 · 1063 阅读 · 0 评论 -
离线数仓的经验
ods层dwd层dws层dwt层ads层原创 2021-11-23 23:53:29 · 1088 阅读 · 0 评论 -
数仓分层基础理论
1 .为什么要分层?数据仓库为什么要进行分层呢? 当然肯定是有好处的把复杂的任务进行简单化, 拆分为一个一个的小任务,方便错的时候进行定位通过中间的分层数据,能极大的提高一次性结果的复用性,减少数据的重复性计算隔离开原始数据, 与原始数据解耦开来,提高数据的安全性2. 数据集市与数据仓库的区别(面试)?数据集市其实就是一种微型的数据仓库, 不管是主题,还是历史数据,都要小于数据仓库,是部门级的,只能为某个部门的人员提供服务,而数据仓库则是企业级的,数据可以为企业做一个决策支持3.数仓理论原创 2021-11-20 19:27:52 · 1552 阅读 · 0 评论 -
hive常见问题
1,FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient学hbase的时候, 有一个hbase和mr 进行交换的配置需要配置hadoop-env.sh文件我发现配置了这个文件以后,再启动hive查看数据的时候,就会出现上面的问题,将它进行取消就行了...原创 2021-07-05 20:06:55 · 196 阅读 · 0 评论 -
压缩与存储
9.1.1MR 支持的压缩编码为了支持多种压缩/解压缩算法,Hadoop 引入了编码/解码器,如下表所示:压缩格式==== 对应的编码/解码器DEFLATE-------org.apache.hadoop.io.compress.DefaultCodecgzip---------------org.apache.hadoop.io.compress.GzipCodecbzip2-------------org.apache.hadoop.io.compress.BZip2CodecLZO---原创 2021-06-09 23:40:02 · 323 阅读 · 3 评论 -
并行执行 和 小文件合并
并行执行 :Hive 会将一个查询转化成一个或者多个阶段。这样的阶段可以是 MapReduce 阶段、抽样阶段、合并阶段、limit 阶段。或者 Hive 执行过程中可能需要的其他阶段。默认情况下, Hive 一次只会执行一个阶段。不过,某个特定的 job 可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整个 job 的执行时间缩短。不过,如果有更多的阶段可以并行执行,那么 job 可能就越快完成。通过设置参数 hive.exec.parallel 值原创 2021-06-09 22:41:33 · 176 阅读 · 0 评论 -
group by 数据倾斜问题
Map阶段的同一个key数据会分发给相同的reduce,当这个key数据量过大时,就会出现数据倾斜问题参数:(1)是否在 Map 端进行聚合,默认为Trueset hive.map.aggr = true (2)在 Map 端进行聚合操作的条目数目set hive.groupby.mapaggr.checkinterval = 100000 (3)有数据倾斜的时候进行负载均衡(默认是 false)set hive.groupby.skewindata = true注: 会有两个job,可能原创 2021-06-09 22:27:11 · 852 阅读 · 0 评论 -
hive的本地模式
Hoodoop处理数据时,数据量小,可能会出现启动任务的mr时会比实际处理任务的时间长,Hive可以通过本地模式使用单机来处理所有的任务,对于小的数据量,执行时间会少很多.设置 hive.exec.mode.local.auto 为true ,让hive在适当的时候启用本地模式,会减少小数据的执行时间参数://开启本地模式 mrset hive.exec.mode.local.auto=true;//设置 local mr 的最大输入数据量,当输入数据量小于这个值时采用 local mr 方原创 2021-06-09 19:27:23 · 812 阅读 · 0 评论 -
hive的严格模式
严格模式的设置: set hive.mapred.mode=strict; #默认是nonstrict 非严格的开启严格模式的作用:一: 防止笛卡尔积的出现笛卡尔积,如果表足够大,会出现不可控的情况,导致集群一直占着资源,可能会出现卡死状态;二:防止分区表不使用分区字段进行过滤问题一般情况下,使用分区表的数据量都会很大, 如果不使用分区字段进行过滤,执行的数据量过大,消耗资源巨大三: 防止使用order by,不使用 limit 造成消耗大量资源问题当使用order by 时,原创 2021-06-09 19:14:28 · 241 阅读 · 0 评论