hive bucket产生的小文件问题

最新推荐文章于 2022-10-23 18:36:45 发布

chushang0934

最新推荐文章于 2022-10-23 18:36:45 发布

阅读量194

点赞数

文章标签：大数据

原文链接：https://my.oschina.net/zipu888/blog/549632

版权

Hive bucket主要作用：
1. 数据sampling
2. 提升某些查询操作效率，例如mapside join

与此同时，在数据不均匀的情况下，bucket产生大量小文件，会带来很大麻烦，具体表现为：
1. 文件数目过多，给namenode带来压力
2. 在对查询条件不加限制时，启动大量map任务
3. 数据入库慢

结论：
bucket，慎用！

转载于:https://my.oschina.net/zipu888/blog/549632

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注