spark应用程序_企业级Spark应用程序的永久存储

最新推荐文章于 2022-11-30 18:00:00 发布

danpu0978

最新推荐文章于 2022-11-30 18:00:00 发布

阅读量130

点赞数

文章标签：大数据人工智能 spark 数据分析 hadoop

原文链接：https://www.javacodegeeks.com/2016/08/persistent-storage-enterprise-grade-spark-applications.html

版权

spark应用程序

Apache Spark变得非常流行，并在大数据社区中得到广泛使用。 Spark获得如此Swift的吸引力有几个原因。这些功能包括其内存中处理能力，对各种用例（例如流传输，机器学习和SQL）的各种引擎的支持，以及使用多种语言（例如Python和Scala）进行开发的能力。关于Spark的兴趣和势头在市场上非常真实。 6月初，MapR宣布了企业级Apache Spark发行版。这样做的原因很简单-使您更容易将Spark用作数据体系结构中的主要大数据计算引擎。这是否意味着我们正在远离Hadoop / MapReduce和所有相关的生态系统工具？绝对不。我们只是在为客户提供如何开始大数据旅程的更多选择。

MapR在支持Apache Spark的大数据供应商中已经领先两年多了，下一步就是提供单独的“仅火花”分发。包括Spark在内的MapR平台是本地和云中Spark负载唯一可靠且可投入生产的平台。现在，您将获得用于批处理和实时处理的聚合计算和存储引擎，可帮助您快速构建和部署应用程序。 MapR Streams（用于提供事件流），Spark Streaming（用于流分析）和MapR-DB（用于存储这些结果）的结合，正在跨推荐案例（例如推荐引擎，客户流失预测和IoT）进行实时分析，成为一种一致的模式应用程序。

您可能已经知道，Spark没有自己的持久性数据存储功能。尽管它被誉为高速内存引擎，但对于数据集不能完全容纳在内存中的任务，它仍然需要经济高效的数据存储。 Spark可以使用多种存储机制。我认为最合适的机制是分布式文件系统，它可以轻松存储Spark弹性分布式数据集（RDD）。与其他Hadoop供应商一起使用Spark时，HDFS充当Hadoop和Spark数据的存储层。这通常在与严格的SLA无关的开发和测试环境中效果很好。但是，由于数据保护和灾难恢复功能不足，在特定任务集群之间移动数据的需求以及缺乏真正的多租户功能，大多数IT经理发现HDFS处理关键业务，生产工作负载面临的挑战。 MapR平台正是针对这些不足而构建的，它是从头开始实现的。凭借其企业级功能，使用商品硬件的低总拥有成本以及在轻松存储各种数据类型方面的灵活性，包括Spark在内的MapR平台应列入任何调查其Spark选项的组织的短名单中。

我建议您从研究市场上各种大数据技术的独立行业分析师那里获取关于我们的Spark发行以及随附的技术堆栈的意见。例如，领先的分析公司Evaluator Group得出的结论是，包括Spark在内的MapR平台是大数据市场上最可靠的企业级Spark平台。您可以通过下载白皮书“ 企业中Apache Spark的持久存储 ”来访问他们的发现。本文将为您提供深入了解MapR平台如何满足Spark应用程序持久存储层的关键要求。

而且，如果您是Spark和MapR的新手，请不要忘记查看MapR Converge社区，该社区是任何人都可以加入的公共在线社区。社区中正在交换大量信息，这使它成为了有关大数据用例，Spark和其他相关主题的知识的枢纽。另外，请务必查看我们涵盖Spark的免费按需培训课程。