说明
本文着重于针对数据整合案例进行学习总结描述,选取部分数据ETL及平台应用中面临的问题及经验进行介绍,未对完整平台功能及流程进行展开描述。以下总结均来源于自身过往经验。特别的,融合数据安全模块及DaaS服务建议进行简要描述。
需求分析
- 数据量:亿级
- 数据格式:以RDBMS数据及log数据为例
- 数据来源:RDBMS,服务器
- 传输要求:以离线为例
- 存储平台:基于Hadoop技术栈部署
- 数据安全:按公司内部标准构建
方案架构
如图为融入数据安全管理及DaaS服务的整合架构图(南北向架构),其中黑色实线部分为大数据平台范围。
针对海量日志数据部署建议:
- 构建全流程统一数据模型
- 采用边缘SDK或者节点服务器进行计算
- 先经过实时数据缓存区,HBASE/SNAPPYDATA
- 历史数据通过dumper沉淀,建立索引
- 使用dremio、Presto、Impala、Clickhou