1、理论基础
论文:
PowerDrill:
Dremel:
架构:
大数据Lambda架构
相关关键词:map/reduce hadoop;MPP数据库;流式计算系统
2、基础平台相关技术
接入层技术:
canal:阿里巴巴开源项目: 基于mysql数据库binlog的增量订阅&消费
sqoop:Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
kafka:
redis:
存储层技术:
hdfs,hbase,kafka,redis
调度层:
yarn,mesos
计算层:
map/reduce
hive,presto
spark
flink
impala
druid
Storm
百度OLAP引擎 Palo
Tez :一个运行在YARN之上支持DAG作业的计算框架,apache二级项目
Oozie:可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务
其他:
MPP架构的实时查询系统有EMC Greenplum、HP Vertica和Google Dremel,
3、参考文章