技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】:170933152
然后我们继续比较一下spark和hadoop
我们知道hadoop,属于一次性数据计算模型
计算模型只有mapper和reducer
他只有mapper,以及reducer,mapper负责把数据打散,reducer负责把数据聚合,
但是数据要先从磁盘上读取,然后mapper打散,然后聚合reducer,然后再把处理后的数据进行写入到磁盘中去.
这样一个一次的数据处理过程,而且这个过程涉及到磁盘读写数据比较慢.
所以如果hadoop要处理,连续的,循环的,迭代式的任务的时候,可以看到
他走一次数据,以后还需要再走一次,比如神经