更改 HIVE 表字段数据类型有哪些注意事项？

最新推荐文章于 2024-08-04 03:39:32 发布

明哥的IT随笔

最新推荐文章于 2024-08-04 03:39:32 发布

阅读量1.5k

点赞数

分类专栏：大数据 hive 文章标签： hive 大数据数据仓库

本文链接：https://blog.csdn.net/MichaelLi916/article/details/128146617

版权

本文讨论了更改HIVE表字段数据类型时的注意事项，强调了在大数据分析中遵循的规范，如分层建模、命名规范和使用列式存储。文章指出，不同类型的数据更改在不同大数据平台上的兼容性不同，特别是在CDH和TDH上存在差异。建议尽量避免不兼容的类型更改，若必须更改，应采取创建新表并迁移数据的方法。

摘要由CSDN通过智能技术生成

更改 HIVE 表字段数据类型有哪些注意事项？

1. 使用 HIVE 表的常见规范

在大数据离线分析场景中，在数据建模/表格式这一层，目前使用最多的还是 APACHE HIVE 这一数据仓库框架（湖仓一体的框架，如 Iceberg/DeltaLake/Hudi也在加速落地）。

在HIVE表的实际使用过程中，大家普遍遵循了下述相关规范：

分层建模：根据业务处理逻辑，进行分层建模，其中各层的表对应不同的库，或在同一个库中通过表名前缀进行区分（各层对应的库名一般使用 ods,dwd,dws,ads等，辅助以dim和tmp层）；
命名规范：数据库名、表名、字段名应遵循规范，比如全部小写，只使用英文名和下划线_，禁止使用数据库关键字和保留字等；各层次表的名字和表中字段的名字，应上下呼应保持一致；
列示存储:为确保数据质量，推荐使用列示存储比如 ORC/PARQUET 而不是行式存储如 txtfile/csv/tsv等，同时各层的表格式应该统一（txtfile格式在创建表时声明的列分隔符和行分隔符，可能会跟记录中某些字段本身存储的内容冲突，在读取时会造成部分字段不准确甚至部分记录丢失的数据问题）；
是否分区：根据业务特征，数据量和常规查询方式，决定HIVE 表是否分区并选用合适的分区字段（比如按天分区pt_date）；
是否分桶：根据业务特征，数据量和常规查询方式，决定HIVE 表是否分桶，通过分桶个数管控表或表分区底层的文件个数；
内表外表：如无特殊原因，推荐全部使用内表，以充分利用 HIVE 本身对数据的管理（如 DROP/Truncate等）；
ACID 事务表：如果业务上有记录级别的增删改的需求，可以考虑使用 ACID 事务表；
DDL中的location: 推荐在创建database时指定database级别的默认location,如无特殊原因，禁止在创建table时指定location;
字段类型：根据业务特征，合理设计字段数据类型，为确保数据计算的准确性，对于带小数的数值型，一般建议使用Decimal()，禁止使用 FLOAT/DOUBLE，同时精度范围和上游表保持一致；
表结构变更：禁止删除字段或重命名字段，禁止对字段数据类型做类型不兼容的更改，出于业务需要，可以在表的末尾增加字段；