为什么要超越Hadoop（书摘）

最新推荐文章于 2022-06-04 15:02:04 发布

free_lock

最新推荐文章于 2022-06-04 15:02:04 发布

阅读量503

点赞数 1

分类专栏：分布式计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dudubird90/article/details/50609456

版权

弈者举棋不定，不胜其耦。——左传 $\cdot$ 襄公

应用场景

Hadoop并不适用所有类型的应用程序:
如果数据分片是互相关联的，或者需要进行跨数据分片的计算，就很难有效运行在Hadoop上。
比如说，想象下你有多支股票，这些股票在不同时间点有不同的价格，现在需要计算这些股票间的关联度，比如你想预测某只股票什么时候会下跌（虽然在国内不靠谱，但是我还是容易想到AR模型），如果不同块中存储了不同的股票，你必须计算不同块中股票的关联性。

Hadoop MR不适合于迭代计算。有两个原因：一是每次迭代从HDFS中获取数据的开销，尽管可以通过分布式的缓存来分摊，另一个是Hadoop中缺乏长期存活的ＭＲ作业，通常在MR作业外，必须执行终止条件检查，以便判断计算是否完成，所以Hadoop在每次迭代中，都需要初始化新的MR作业。 ——初始化开销可能会超过迭

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。