- 博客(2)
- 收藏
- 关注
原创 hive文件类型与压缩
1.概述 数据仓库在建设使用的过程中,主要消耗的资源包含:CPU、MEMORY、DISK三部分。 数据仓库在计算过程中主要消耗CPU和Memory资源,当然也会消耗一些DISK资源用来存储计算过程中的临时结果。但是主要优化的方向,还是降低CPU和MEMORY的消耗,这方面主要依赖于模型设计的合理性,所以在模型设计阶段增加模型设计review的步骤,保证模型设计的合理性。 数据仓...
2017-05-23 23:16:20 525
原创 hive小文件合并
hive仓库表数据最终是存储在HDFS上,由于Hadoop的特性,对大文件的处理非常高效。而且大文件可以减少文件元数据信息,减轻NameNode的存储压力。但是在数据仓库中,越是上层的表汇总程度就越高,数据量也就越小,而且这些表通常会有日期分区,随着时间的推移,HDFS的文件数目就会逐步增加。 一、小文件带来的问题 HDFS的文件包好数据块和元信息,其中元信息包括位置、大小、分块...
2017-05-21 22:15:28 1043
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人