Hive
文章平均质量分 57
wsow
这个作者很懒,什么都没留下…
展开
-
hive/pom.xml文件报错
解决方法: 如下原创 2017-09-06 18:44:08 · 508 阅读 · 0 评论 -
etl
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也转载 2017-09-07 14:16:56 · 384 阅读 · 0 评论 -
hive数据倾斜调优
HIVE 数据倾斜调优总结 在做Shuffle阶段的优化过程中,遇 到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些 Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段 的,map处理数据量的差异取决于上一个s转载 2017-09-24 14:54:26 · 289 阅读 · 0 评论 -
Hive中join的三种方式
hive在实际的应用过程中,大部份分情况都会涉及到不同的表格的连接,例如在进行两个table的join的时候,利用MR的思想会消耗大量的内存,良妃磁盘的IO,大幅度的影响性能,因为shuffle真的好令人担心啊,总之,就是各种问题都是由他产生的。下面介绍一下涉及hive在join的时候的优化方式 第一:在map端产生join mapJoin的主要意思就是,当链接的两个表是一个原创 2017-09-24 15:12:15 · 4041 阅读 · 0 评论 -
hive压缩格式
Hive压缩格式 TextFile Hive数据表的默认格式,存储方式:行存储。可使用Gzip,Bzip2等压缩算法压缩,压缩后的文件不支持split但在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍。 --创建数据表: create table if not exists textfile_table( site原创 2017-09-09 00:01:50 · 253 阅读 · 0 评论