相比Hadoop,如何看待Spark技术?

最新推荐文章于 2022-07-13 16:35:40 发布

aa541505

最新推荐文章于 2022-07-13 16:35:40 发布

阅读量251

点赞数

分类专栏：大数据 IT资讯互联网科技人工智能文章标签：大数据人工智能编程语言程序员 hadoop

本文链接：https://blog.csdn.net/aa541505/article/details/90245879

版权

IT资讯同时被 3 个专栏收录

77 篇文章 0 订阅

订阅专栏

互联网科技

72 篇文章 0 订阅

订阅专栏

人工智能

71 篇文章 0 订阅

订阅专栏

本文探讨了Spark与Hadoop MapReduce在大数据处理中的角色，指出Spark在处理复杂迭代和小数据集上的优势，并通过Peta sort实验表明其处理大规模数据的能力。Spark以其简洁的编程接口和内存Cache操作吸引关注，而Tez则尝试解决MapReduce的局限。尽管两者在稳定性方面有待验证，但Spark在商业推广上取得领先，有望成为MapReduce的重要替代方案。

摘要由CSDN通过智能技术生成

Hadoop包括Yarn和HDFS以及MapReduce，说Spark代替Hadoop应该说是代替MpReduce。

之前看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅大数据集，也没有稳定性。但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了。

Sort和Shuffle是MapReduce上最核心的操作之一，比如上千个Mapper之后，按照Key将数据集分发到对应的Reducer上，要走一个复杂的过程，要平衡各种因素。Spark能处理Peta sort的话，本质上已经没有什么能阻止它处理Peta级别的数据了。这差不多远超大多数公司单次Job所需要处理的数据上限了。

回到本题，来说说Hadoop和Spark。Hadoop包括Yarn和HDFS以及MapReduce，说Spark代替Hadoop应该说是代替MpReduce。

上面这些问题，算是每个号称下一代平台都尝试解决的。

现在号称次世代平台现在做的相对有前景的是Hortonworks的Tez和Databricks的Spark。他们都尝试解决了上面说的那些问题。Tez和Spark都可以很自由地描述一个Job里执行流(所谓DAG，有向无环图)。他们相对现在的MapReduce模型来说，极大的提升了对各种复杂处理的直接支持，不需要再绞尽脑汁“挖掘”MR模型的潜力。=

相比Tez，Spark加入了更多内存Cache操作，但据了解它也是可以不Cache直接处理的，只是效率就会下降。

再说Programming Interface，Tez的Interface更像MapReduce，但是允许你定义各种Edge来连接不同逻辑节点。Spark则利用了Functional Programming的理念，API十分简洁，相比MR和Tez简单到令人发指。我不清楚Spark如果要表现复杂的DAG会不会也变得很麻烦。

处理大规模数据而言，他们都需要更多proven cases。至少Hadoop MapReduce是被证明可行的。

作为Data Pipeline引擎来说，MapReduce每个步骤都会存盘，而Spark和Tez可以直接网络发送到下一个步骤，速度上是相差很多的，但是存盘的好处是允许继续在失败的数据上继续跑，所以直观上说MapReduce作为pipeline引擎更稳健。但理论上来说，如果选择在每个完成的小步骤上加CheckPoint，那Tez和Spark完全能和现在的MapReduce达到一样的稳健。

总结来说，即便现在不成熟，但是并没有什么阻碍他们代替现有的MapReduce Batch Process。

对Tez而言，似乎商业上宣传不如Spark成功。Databricks头顶Berkley的光环，商业宣传又十分老道，阵营增长极快。光就系统设计理念，没有太大的优劣，但是商业上可能会拉开差距。Cloudera也加入了Spark阵营，以及很多其他大小公司，可以预见的是，Spark会成熟的很快，相比Tez。

但Tez对于Hortonworks来说是赢取白富美的关键，相信为了幸福他们也必须努力打磨推广Tez。

所以就算现在各家试用会有种种问题，但是毕竟现在也就出现了2个看起来有戏的“次世代”平台，那慢慢试用，不断观望，逐步替换，会是大多数公司的策略。

推荐阅读文章

大数据工程师在阿里面试流程是什么？

学习大数据需要具备怎么样基础？

年薪30K的大数据开发工程师的工作经验总结？