hive与数据仓库篇

最新推荐文章于 2022-06-24 14:25:26 发布

Imflash

最新推荐文章于 2022-06-24 14:25:26 发布

阅读量448

点赞数

分类专栏：知识点总结

本文链接：https://blog.csdn.net/imflash/article/details/100715166

版权

本文探讨了Hive在数据仓库中的常见问题，包括小文件合并、存储格式与压缩、ETL工具选择、数据质量保障、数据仓库分层设计、优化经验等。此外，还涉及到了Hive的建模方式、数据同步工具、UDF函数使用、数据倾斜处理和ACID特性的应用。

摘要由CSDN通过智能技术生成

文章目录

问题1、在hive中如何处理小文件合并问题

有时候为了避免小文件合并，我们会设置小文件合并

set mapred.max.split.size=112345600;
set mapred.min.split.size.per.node=112345600;
set mapred.min.split.size.per.rack=112345600;
set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

这个参数表示执行前进行小文件合并，前面三个参数确定合并文件块的大小，大于文件块大小128m的，按照128m来分隔，小于128m，大于100m的，按照100m来分隔，把那些小于100m的（包括小文件和分隔大文件剩下的），进行合并

问题2、hive的存储格式，以及压缩算法

hive的数据存储格式主要有：TEXTFILE（行式存储）、SEQUENCEFILE（行式存储）、ORC（列式存储）、PARQUET（列式存储）
列式存储相对行式存储来说，它的数据压缩效率更高
ORC存储指定压缩方式有one of NONE（无压缩）、ZLIB、SNAPPY
hive表的数据存储格式一般选择：orc或parquet。压缩方式一般选择snappy。

问题3、是用什么ETL工具进行hive中数据的ETL

问题4、如何保证hive中数据的质量

1.从技术层面上：构建一套高效、健壮的ETL程序去保证数据清洗、装换后数据的正确性和一致性；
2.从流程层面上：整个ETL是多个任务的，按步骤顺序执行的一个过程，后置任务依赖前置任务，定期执行，整个流程需要自动化，并且那个环节出现了问题，给予预警，通知相关维护人员及时处理；
3.从管理层面上：数据仓库构建在公司各个业务系统之上，它是一面镜子，很多时候它能反映出业务系统的问题，所以需要管理层的支持和约束。
https://blog.csdn.net/LwpHelloWorld/article/details/100146696