1.发展历史
Google三篇论文(FS、MapReduce、BigTable)---> Hadoop(Doug Cutting) ---> Pig脚本(Yahoo)--->Hive将sql转化mapreduce(Facebbok) ---> spark.[离线计算] storm、sparkStreaming、Flink的实时流追加计算
2.大数据技术架构
备注:
- Yarn分布式集群资源调度框架。
- Oozie大数据调度系统。
- HDFS/GFS分布式文件系统。
- Impala、Cloudera发布的运行在HDFS上的sql引擎。
- Sqoop专门用将关系数据库中的数据批量导入导出到Hadoop。
- Canal可以实时将关系数据库的数据导入到Hadoop。
- Flume大规模日志分布式收集。
-
TensorFlow,开源的机器学习系统
-
Spark MLlib,Spark机器学习算法库
-
Mahout,Hadoop机器学习算法库