典型综合场景数据流转设计
综合场景一 T+1数据加工
图 4 T+1方式数据流转
T+1是数据仓库领域最为常见的数据集成模式,T+1模式下数据仓库会在每天固定时间点采集当天或者前一天交易系统数据。
根据数据类型,结构化数据来源一般为RDB,需要将这些数据通过ETL工具全量或者增量导入到tdh的hdfs中,最后根据实际业务需求通过inceptor将数据写入到对应的表中:
① sqoop/tdt支持全量/增量导入数据,可以装载到hdfs中,tdt可以直接写入orc表中。
② 需要做大量聚合分析的写入orc表或者argodb表,有数据合并、删除、修改操作的写入orc事务表;高并发的精确查询写入hyperbase表;精确查询、模糊查询、多维度灵活组合查询写入Search表;
有时候,结构化数据可以通过原系统导出成文本,放在FTP或者其他文件系统,这种文本可以类似日志、文档等外部数据一样,可以通过flume、Superput工具采集到HDFS,然后通过Inceptor写入合适的存储引擎。
例一:
oracle中的表 tableA,需要一次性的全量抽取全部数据,之后的业务需要对该表做精确查询。这个时候选择Transporter直接将数据录入orc表中,之后根据业务的需求,将数据录入hyperbase中。
<