数据流分组

最新推荐文章于 2023-07-29 10:02:23 发布

chuanlahong3756

最新推荐文章于 2023-07-29 10:02:23 发布

阅读量252

点赞数

文章标签：大数据

原文链接：https://my.oschina.net/u/3672631/blog/1616933

版权

数据流分组定义了一个数据流中的tuple如何分发给topology中不同bolt的task。

1、Shufﬂe grouping（随机分组）：这种方式会随机分发 tuple 给 bolt 的各个 task，每个bolt 实例接收到的相同数量的 tuple。

2、Fields grouping（按字段分组）：根据指定字段的值进行分组。比如说，一个数据流根据“word”字段进行分组，所有具有相同“word”字段值的 tuple 会路由到同一个 bolt 的 task 中。

3、All grouping（全复制分组）：将所有的 tuple 复制后分发给所有 bolt task。每个订阅数据流的 task 都会接收到 tuple 的拷贝。

4、Globle grouping（全局分组）：这种分组方式将所有的 tuples 路由到唯一一个 task 上。Storm 按照最小的 task ID 来选取接收数据的 task。注意，当使用全局分组方式时，设置 bolt 的 task 并发度是没有意义的，因为所有 tuple 都转发到同一个 task 上了。使用全局分组的时候需要注意，因为所有的 tuple 都转发到一个 JVM 实例上，可能会引起 Storm 集群中某个 JVM 或者服务器出现性能瓶颈或崩溃。

5、None grouping（不分组）：在功能上和随机分组相同，是为将来预留的。 Direct grouping（指向型分组）：数据源会调用 emitDirect() 方法来判断一个 tuple 应该由哪个 Storm 组件来接收。只能在声明了是指向型的数据流上使用。

6、Local or shufﬂe grouping（本地或随机分组）：和随机分组类似，但是，会将 tuple 分发给同一个 worker 内的 bolt task（如果 worker 内有接收数据的 bolt task）。其他情况下，采用随机分组的方式。取决于 topology 的并发度，本地或随机分组可以减少网络传输，从而提高 topology 性能。

转载于:https://my.oschina.net/u/3672631/blog/1616933

chuanlahong3756

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据流分组

数据流分组定义了一个数据流中的tuple如何分发给topology中不同bolt的task。1、Shufﬂe grouping（随机分组）：这种方式会随机分发 tuple 给 bolt 的各个 task，每个bolt 实例接收到的相同数量的 tuple。2、Fields grouping（...
复制链接

扫一扫

数据流分组

“相关推荐”对你有帮助么？