![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
BigData
杜克泰森
BigData Time is coming,So Let's get fighting!
展开
-
如何在impala中修改parquet表的字段类型以及修复过程
一、需求场景 众所周知impala和hive是共用一天元数据。因为前期设计impala外部表的时候考虑不足,某些字段设置成int类型,但是随着业务增长数值已经超过了int的最大值,不能满足业务需求,所以要对某些int类型的字段进行修改字段类型为string。但是parquert在存储上,做了加密,二级制存储压缩,因为Impala对Parquet文件中列的顺序很敏感,所以在表的列定义与Parque...原创 2019-11-22 18:22:17 · 8204 阅读 · 0 评论 -
浅谈Hive的动态分区以及Impala的动态分区
一、需求场景: 当你有一张hive表,里面也有一个字段是时间字段,每天的数据是按这个时间字段导入进去的,这时候你就需要有动态分区这个东西了。分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判...原创 2019-11-22 17:40:16 · 2516 阅读 · 0 评论