问题:原来存储在业务系统中业务数据如何将其导入到存储引擎,流式程序,实时导入当前数据,历史数据如何导入呢????
答:历史数据导入:批量加载导入(BulkLoad),从业务系统批量读取数据,直接存储到大数据存储引擎。
建议,将业务数据库中业务数据,业务系统不繁忙的时候(夜深人静之时),历史数据导出到文本文件中(例如:csv或tsv),编写sparksql程序,读取文本文件数据,ETL转换,存储到外部系统(例如kudu表,ES索引和CK表)
为什么将RDBMs表数据导入出为文本文件呢?而不是sparksql直接读取RDBMs表数据呢?
RDBMS表中存储业务数据,如果直接读取数据,对业务数据库产生很大负载压力,使用业务系统性能降低。