Heron：Twitter 的新一代流处理引擎原理篇

最新推荐文章于 2021-11-02 15:58:33 发布

社会我857

最新推荐文章于 2021-11-02 15:58:33 发布

阅读量213

点赞数

分类专栏：程序员杂志-大数据技术深度实践

本文链接：https://blog.csdn.net/weixin_38113732/article/details/106537415

版权

程序员杂志-大数据技术深度实践专栏收录该内容

17 篇文章 1 订阅 ¥9.90 ¥99.00

订阅专栏

本文深入探讨了流计算的重要性和Heron系统，Twitter的下一代流处理引擎。Heron旨在解决Storm的性能和扩展性问题，提供与Storm兼容的API。文章介绍了Heron的关键组件，包括TMaster、Stream Manager、Instance，以及反压和确认机制，揭示了其实现低延迟、高响应实时处理的能力。此外，文章还讨论了Heron的架构设计，如Library架构和物理计划的生成，强调了其在资源管理和监控方面的优势。

摘要由CSDN通过智能技术生成

本文介绍了流计算的背景和重要概念，并详细分析了 Twitter 目前的流计算引擎—— Heron的结构及重要组件，希望能借此为大家提供一些在设计和构建流计算系统时的经验。

流计算又称实时计算，是继以 Map-Reduce 为代表的批处理之后的又一重要计算模型。随着互联网业务的发展以及数据规模的持续扩大，传统的批处理计算难以有效地对数据进行快速低延迟处理并返回结果。由于数据几乎处于不断增长的状态中，及时处理计算大批量数据成为了批处理计算的一大难题。在此背景之下，流计算应运而生。相比于传统的批处理计算，流计算具有低延迟、高响应、持续处理的特点。在数据产生的同时，就可以进行计算并获得结果。更可以通过 Lambda 架构将即时的流计算处理结果与延后的批处理计算结果结合，从而较好地满足低延迟、高正确性的业务需求。

Twitter 由于本身的业务特性，对实时性有着强烈的需求。因此在流计算上投入了大量的资源进行开发。第一代流处理系统 Storm 发布以后得到了广泛的关注和应用。根据 Storm 在实践中遇到的性能、规模、可用性等方面的问题，Twitter 又开发了第二代流处理系统——Heron，并在2016年将它开源。