- 博客(1)
- 收藏
- 关注
原创 数据处理_HIVE增量ETL的一种方式
适用场景: 贴源层主表历史数据过大,ETL不涉及历史数据对比或聚合 处理流程: 1.确定一个业务主键字段或物理主键字段 2.确定一个可以判断增量数据范围的字段,这取决于具体的业务场景,一般选用记录的创建时间或最后修改时间 3.确定一个分区字段,要求一段增量数据尽可能落在较少的分区,这里选用创建时间或最后修改时间的年月值 4.根据增量字段过滤主表,创建增量临时表 5.使用增量临时表完成要做ETL过程,得到一个增量结果表 6.获取增量结果表的分区字段Distinct值,存入一张表,下面把这些值简称为pt值,即p
2021-02-23 22:56:36 414
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人