STORM之ITridentSpout、FirstN(取Top N)实现、流合并和join

最新推荐文章于 2018-10-26 03:15:56 发布

奔跑-起点

最新推荐文章于 2018-10-26 03:15:56 发布

阅读量1.4k

点赞数

分类专栏： storm 流处理 realtime 文章标签： storm 事务流处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bbaiggey/article/details/59104111

版权

storm 同时被 3 个专栏收录

11 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

基于事务

static interface ITridentSpout.BatchCoordinator<X>

static interface ITridentSpout.Emitter<X>

接口类的实现和之前事务ITransactionalSpout 非常类似。

Topo 例子

topology.newDRPCStream("top", drpc)
.each(new Fields("args"), new Split(“ ”), new Fields("time"))
.parallelismHint(5)
.stateQuery( myStates,newFields("time"),new QueryPacketDB(),new Fields("srcip", "byt", "pkt"))
.groupBy(new Fields("srcip"))
. chainedAgg ()
.aggregate(new Fields("byt"), new Sum(), new Fields("yt"))
.aggregate(new Fields("pkt"), new Sum(), new Fields("kt"))
. chainEnd ()
. applyAssembly (new FirstN (10, " yt ", true));

调用链用于执行多个聚合

如果想同事执行多个聚合，可以使用如下的调用链

mystream.chainedAgg()

.partitionAggregate(new Count(), new Fields("count"))

.partitionAggregate(new Fields("b"), new Sum(), new Fields("sum"))

.chainEnd()

这个代码将会在每个分区上执行count和sum聚合。输出将包含【“count”，“sum”】字段。

投影（ projection ）

投影操作是对数据上进行列裁剪。

如果你有一个流有【“a”，“b”，“c”，“d”】四个字段，执行下面的代码：

mystream.project(new Fields("b","d"));

输出流将只有【“b”，“d”】两个字段。

重分区（ repartition ）操作

重分区操作是通过一个函数改变元组（tuple）在task之间的分布, 重分区（repatition）需要网络传输，目的是方便聚合或查询。如下是重分区函数：

1. Shuffle：

2. Broadcast：每个元组重复的发送到所有的目标分区。这个在DRPC中很有用。如果你想做在每个分区上做一个statequery。

3. paritionBy：根据一系列分发字段（fields）做一个语义的分区。通过对这些字段取hash值并对目标分区数取模获取目标分区。paritionBy保证相同的分发字段（fields）分发到相同的目标分区。

4. global：所有的tuple分发到相同的分区。

5. batchGobal：本批次的所有tuple发送到相同的分区，不通批次可以在不通的分区。

6. patition：这个函数接受用户自定义的分区函数。用户自定义函数事项 backtype.storm.grouping.CustomStreamGrouping接口。

合并和关联

合并（merge）多个流成为一个流，可以如下：

topology.merge(stream1, stream2, stream3);

Trident合并的流字段会以第一个流的字段命名。

另一个合并流的方法是join。类似SQL的join都是对固定输入的。而流的输入是不固定的，所以不能按照sql的方法做join。

Trident中的join只会在spout发出的每个批次间进行。

如一个流包含字段【“key”,“val1”，“val2”】，

另一个流包含字段【“x”，“val1”】：

topology.join(stream1, new Fields("key"), stream2, new Fields("x"), new Fields("key","a","b","c"));

Stream1的“key”和stream2的“x”关联，Trident要求所有的字段要改名字。

1. 首先是join字段。例子中stream1中的“key”对应stream2中的“x”。

2. 接下来，会把非join字段依次列出来，排列顺序按照传给join的顺序。例子中“a”，“b”对应stream1中的“val1”和“wal2”，“c”对应stream2中的“val1”。

FirstN

取Top N

用法：

stream. applyAssembly (new FirstN(TOP_N, "sortField", true));

小结

Trident适合做汇总型，不大适合做去重型

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
STORM之ITridentSpout、FirstN(取Top N)实现、流合并和join

基于事务static interface ITridentSpout.BatchCoordinator static interface ITridentSpout.Emitter接口类的实现和之前事务ITransactionalSpout 非常类似。Topo例子topology.newDRPCStream("top", drpc).ea
复制链接

扫一扫

专栏目录

奔跑-起点 CSDN认证博客专家 CSDN认证企业博客

码龄13年

207: 原创

13万+: 周排名

196万+: 总排名

59万+: 访问

: 等级

7048: 积分

126: 粉丝

99: 获赞

37: 评论

157: 收藏

私信

关注

热门文章

分类专栏

最新评论

linux修改max user processes limits
一顷: 请问修改这个参数会影响最大网络传输时间等相关网络的性能么
史上最全使用Nexus搭建Maven服务器详细配置
毁灭y: 写的真烂，不想多看一下
Spring Boot DATA JPA抓取SQL运行时的传递进去的参数信息
冰羽IOX: 在application.yml添加配置 logging: level: org.hibernate.type.descriptor.sql.BasicBinder: trace 控制台输出 Hibernate: insert into t_user (password, username) values (?, ?) 2020-06-25 16:33:28.105 TRACE 2559 --- [io-60622-exec-2] o.h.type.descriptor.sql.BasicBinder : binding parameter [1] as [VARCHAR] - [2020-06-151] 2020-06-25 16:33:28.105 TRACE 2559 --- [io-60622-exec-2] o.h.type.descriptor.sql.BasicBinder : binding parameter [2] as [VARCHAR] - [测试]
读万卷书不如行万里路，行万里路不如阅人无数，阅人无数不如名师指路，名师指路不如自己去悟
则若: 文章很赞，和我最近的认知升级有异曲同工之妙，感谢指点
Netty4.0学习笔记系列之四：混合使用coder和handler
xzlAwin: 路径好像不太正确 import static io.netty.handler.codec.http.HttpHeaders.Names.CONTENT_TYPE; 正确的是 import static io.netty.handler.codec.http.HttpHeaderNames.CONTENT_TYPE;

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。