数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算。
1、数据库选型:
参考:数据库选型。
2、数仓项目
数据采集传输:Flume(文件)、kafka(文件,数据量过大做消峰)、Sqoop(mysql),Logstash(小公司)、DataX
数据存储:Mysql,HDFS(hive)、Hbase、Redis、MongoDB(爬虫)、Redis
数据计算:Hive、Tez(基于内存)、Spark、Flink、Storm
数据查询:Presto(即席、Apache)、Druid(德鲁伊)、Impala(CDH)、Kylin(多维查询)
数据可视化:Echarts、Superset、QuickBI、DataV
任务调度:Azkaban、Oozie
集群监控:Zabbix
元数据管理:Atlas