MapReduce的缺点:
1.开发
wordcount程序复杂
只支持map和reduce方法
执行效率低下
以作业连方式串起来执行
打包
2.运行速度:
map输出写到磁盘,reduce写到hdfs,磁盘I/O,网络I/O,序列化等压力大
map任务和reduce任务以进程方式运行
一定要求排序(其实有时候不需要)
不适合迭代处理,交互式(数据挖掘)处理,流式处理
3.框架多样性:
维护和学习成本大
Spark特点:
速度快,使用方便,通用性,可以运行在hadoop,Hadoop, Mesos, Kubernetes, standalone, cloud
Hadoop生态系统和Spark生态系统:
BDAS:Berkeley Data Analytics Stack
Hadoop和Spark生态圈: