篇首语:前面概论,后面详谈,废话少说,直接干货
工具类型 | 工具名称 | 工具特点 | 最佳实践 | 对应开源 |
---|---|---|---|---|
数据采集 | DataX | ① 离线数据传输同步 ② 万源皆可传 | RDBMS数据库上云;互联网数据上云;部分云平台数据传输下载 | Kettle |
DTS | ①数据迁移,结构迁移 ②实时数据订阅 ③实时数据同步 | 阿里双十一为数千下游应用提供实时数据流 | TimeTunnel | |
Stream & DataHub | ①支持数据实时采集,离线采集 ②支持流式数据加工和传输 ③支持历史数据发送离线存储 | 流计算应用;大屏实时展示;阿里天猫双十一 | Flink | |
离线存储 | OSS | ①对象存储,存储万物 ②调用方便,查看方便 | 历史数据备份存储 | Ceph |
ODPS | ①支持离线海量数据存储 ②离线海量数据计算能力强大 ③支持MR,UDF,Graph等计算类型和MPI迭代计算 ④任务调度任务运维功能完善 ⑤支持多数据源之间数据传输推送 | 云平台离线大数据加工,数据治理;web应用数据推送;算法MR数据加工,UDF开发与实践 | Hadoop | |
云数据库 | Redis | ①基于内存调用速率快 ②也可基于外存永久保存 ③Key-Value型Nosql数据库 | 项目应用缓存数据存放和快速调用 | Redis |
RDS | ①可选择多种语言类型的云数据库 | 直接面向前端的应用专用数据库 | Mysql | |
DRDS | ①支持分布式事务 ②支持分库分表 ③支持读写分离 ④支持SQL路由 ⑤支持平滑扩容 | 广东电子税务局 | ||
HybirdDB for PG | ①支持OLAP+OLTP ②支持SQL语法和函数 ③支持行列混合存储 ④支持对象数据存储 ⑤支持分布式存储过程编写 | 阿里内部使用,网上暂未找到相关商业实践 | HyPer | |
ADS | ①超大规模集群 ②支持单表万亿记录多表关联分析 ③支持高并发,秒级响应,实时在线分析 | 人物画像 | Greenplum | |
云服务器 | ECS | ①云服务器 ②用途广大,节省成本 | SVN服务器,算法服务器,文档服务器,gateway | Apache |
工具名称 | 使用场景 | 数据输入 | 数据输出 |
---|---|---|---|
DataX | 适合离线同步的大批量数据 | 除了ADS和ES都可以做输出源 | 万源皆可做目标端 |
DTS | 数据迁移:适合云上云下数据源的数据迁移,部分数据源支持结构迁移 实时数据订阅:适合快速实时获取区间数据的场景,仅支持RDS,DRDS 实时数据同步:适合多数据库之间的实时同步,仅支持接入专线的MySQL | 数据迁移:(1) RDS实例 (2) 本地自建数据库 (3) ECS自建数据库 (4) MongoDB实例 | 数据迁移:(1) RDS实例 (2) ECS自建数据库 (3) MongoDB实例 (4) Redis实例 (5) DRDS实例 (6) PetaData实例 (7) OceanBase实例 |
Stream & DataHub | 适合实时流式数据的采集和传输,并可存储历史数据到离线数据库 | ①DataHub:本地上传,LogStash,Java,ODPS等 ②Stream:RDS,DataHub | ①DataHub:ODPS,OSS,RDS,ADS ②Stream:RDS,DataHub,ADS |
OSS | 适合大容量数据存储和对实时性要求不高的离散数据,可简单理解为网盘 | 基本上数仓都可输入到OSS | 基本上都可调用 |
ODPS | 适合海量数据存储,数据仓库结构构建,有上下游任务调度需求,对计算结果实时性要求不高的大数据计算服务 | ODPS是离线存储,数据集成功能可输入万源 | ODPS是离线存储,数据集成功能可输出万源 |
Redis | 适合对调用速度要求高的对象数据存储如应用缓存数据 | web应用,oss | 应用接口,oss |
RDS | 这里专指MySQL数据库,适合直接与外部应用对接的快速调用查询数据库 | DTS,ODPS,DataHub, Stream,DataX,RDS | DTS,ODPS,DataHub, Stream,DataX,RDS |
DRDS | 适合方便管理RDS集群数据 | 是RDS的集群,可理解为RDS | 是RDS的集群,可理解为RDS |
HybirdDB for PG | 适合既支持OLAP,又支持OLTP的业务,可以作为RDS的延伸存储和查询 | OSS ,ODPS,MySQL,PostgreSQL,DataX,DTS和 使用 COPY 命令 | 应用调用 |
ADS | 适合最高PB级海量数据实时在线查询分析,速度可达秒级 | ODPS,DataX,DTS,Stream | ODPS,RDS |
ECS | 适合做数据库,应用等 | linux命令,shell语言 | 可与web前端结合显示 |