0. 大数据技术演变史(来自通信院) 1. 起源:Google的三驾马车 1.1 GFS 1.2 BigTable 1.3 MapReduce 2. 开源大数据文件、对象、块存储 2.1 分布式文件系统:HDFS、Ceph、GlusterFS、Lustre 2.2 分布式缓冲文件系统:Alluxio、JuiceFS 2.3 对象存储:OZone、SeaweedFS、MinIO 3. 数据库技术 3.1 列式数据库:HBase、Cassandra 3.2 OLAP数据库:Hive、Doris、Kylin、Clickhouse 3.3 HTAP数据库:TiDB 3.4 图数据库:Neo4j、ArangoDB 3.5 文档数据库:MongoDB 3.6 KV数据库:Redis 3.7 时序数据库:Prometheus、Influxdb、Druid 3.8 日志消息队列:Kafka、Pulsar 3.9 搜索引擎:Elasticsearch、Solr、Lucene 4. 资源管理 4.1 Yarn 4.2 Kubernetes 4.3 Slurm 5. 计算框架 5.1 MapReduce 5.2 Spark 5.3 Flink 5.4 PyTorch 5.5 Tensorflow 6. 分布式协调服务 6.1 Zookeeper 6.2 Raft 7. 文件存储格式 7.1 Avro 7.2 Snappy 7.2 Parquet 8. 集群管理 8.1 Ambari 9. 数据集成 9.1 DataX 9.2 Flume 9.3 InLong 10. 数据可视化 10.1 Superset 10.2 ECharts、Highcharts 11. 任务调度 11.1 Airflow 11.2 NiFI 11.3 DolphinScheduler 12. 元数据管理 12.1 Altas 12.2 WhereHows 13. AI平台 13.1 Submarine 13.2 Kubeflow 14. 数据安全 14.1 隐私计算:CrypTen、FedAI 14.2 数据脱敏:Privacy 14.3 身份认证:CAS、Kerberos 14.4 权限管理:Ranger 15. 数据湖 15.1 Delta 15.2 Iceberg 15.3 Hudi 16. 分布式数据查询引擎 16.1 Presto 16.2 Impala