Hive是基于Hadoop分布式框架下的数据仓库解决方案,可以方便地对数据进行清洗、转化和加载。Hive处理海量数据是数据仓库的基本需求,而如何通过hive充分利用Hadoop集群的分布式并行功能就至关重要。如果不能充分利用分布式并行处理,那么处理大数据量就会变得低效。而一张数据表需要多少个map来处理和一个map处理多少数据记录,都会影响到海量数据处理的效率。
---------------------
作者:lpxuan151009
来源:CSDN
原文:https://blog.csdn.net/lpxuan151009/article/details/7980568
版权声明:本文为博主原创文章,转载请附上博文链接!
Hive优化(5)之选择合适的map数
最新推荐文章于 2023-12-05 23:37:44 发布