STORM StateQuery方法的使用与底层原理

最新推荐文章于 2022-09-08 11:29:48 发布

zuochanxiaoheshang

最新推荐文章于 2022-09-08 11:29:48 发布

阅读量1.8k

点赞数

分类专栏： Hadoop随笔文章标签： storm

本文链接：https://blog.csdn.net/zuochanxiaoheshang/article/details/51425098

版权

Hadoop随笔专栏收录该内容

52 篇文章 0 订阅

订阅专栏

Stream.stateQuery(TridentState state, Fields inputFields, QueryFunction function, Fields functionFields)方法主要是根据输入从持久化存储系统中读取相应的数据并将其当作一个数据流供Strom Topology使用。下面我们看一下stateQuery的具体执行过程：

@Override
    public void startBatch(ProcessorContext processorContext) {
        processorContext.state[_context.getStateIndex()] =  new BatchState();
    }

在Storm框架进行一个batch处理的时候，会调用startBatch方法，生成该batch内部使用的BatchState实例。

@Override
    public void execute(ProcessorContext processorContext, String streamId, TridentTuple tuple) {
        BatchState state = (BatchState) processorContext.state[_context.getStateIndex()];
        state.tuples.add(tuple);
        state.args.add(_projection.create(tuple));
    }

对于batch中的每一个tuple，Strom框架会进行两种操作，一是将原始的tuple存储到BatchState中；一是将原始的tuple进行“投影”操作，将tuple中需要的列进行组成一个新的tuple进行存储。

 @Override
    public void finishBatch(ProcessorContext processorContext) {
        BatchState state = (BatchState) processorContext.state[_context.getStateIndex()];
        if(!state.tuples.isEmpty()) {
            List<Object> results = _function.batchRetrieve(_state, Collections.unmodifiableList(state.args));
            if(results.size()!=state.tuples.size()) {
                throw new RuntimeException("Results size is different than argument size: " + results.size() + " vs " + state.tuples.size());
            }
            for(int i=0; i<state.tuples.size(); i++) {
                TridentTuple tuple = state.tuples.get(i);
                Object result = results.get(i);
                _collector.setContext(processorContext, tuple);
                _function.execute(state.args.get(i), result, _collector);
            }
        }
    }

当一个batch的都有tuple都处理完成后，strom框架调用finishBatch函数。该函数主要调用QueryFunction函数。该函数有两个参数，即BatchState以及execute函数中生成的新tuple。对于每一个获取的结果，通过调用QueryFunction的execute方法来完成最终的处理。

public interface QueryFunction<S extends State, T> extends EachOperation {
    List<T> batchRetrieve(S state, List<TridentTuple> args);
    void execute(TridentTuple tuple, T result, TridentCollector collector);
}

zuochanxiaoheshang

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
STORM StateQuery方法的使用与底层原理

Stream.stateQuery(TridentState state, Fields inputFields, QueryFunction function, Fields functionFields)方法主要是根据输入从持久化存储系统中读取相应的数据并将其当作一个数据流供Strom Topology使用。下面我们看一下stateQuery的具体执行过程：@Override publi
复制链接

扫一扫