前言
本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系
正文
适合使用 Flume 的场景
在选择 Flume 来处理不同的业务时,读者需要考虑的事项如下 —— 遇到下列需求时可以选择 Flume
- 从各种 Source 获取数据并存储到 Hadoop 系统中
- 高速地处理大量数据到 Hadoop 系统中。
- 可靠地传输数据到目的地。
- 可扩展的解决方案,当数据涌入速度和数量増加时,只需增加机器就可以实现扩展。
- 架构中的各个组件可以动态配置,而无须启停服务。
- 整体架构的各种配置可以单点管理。
不适合使用 Flume 的场景
某些情形中,Flume 不是理想的选择。 除了 Flume,还有其他的选项可以用来解决这些需求。
下列场景中不推荐选择 Flume:
- 更偏重数据处理,而不是数据传输。这种场景更适合使用其他流式处理技术。
- 更偏重批量数据传输(常规批量而不是微批量)。
- 在不丢失数据的前提下需要更多可用的设置。
- 需要高可扩展性地对消息持久化(虽然没有一个科学的定量标准)
- 有大量的消息消费者,这对 Flume 的可扩展性有很大的影响
虽然 Flume在很多情況下可以进行动态配置,但是某些配置更改(拓扑更改)还是会导致停机。