storm中fieldsGrouping的分配策略实质

在storm和jstorm中,fieldsGrouping是按指定字段进行分组,相同的指定字段的值都会分到同一个组里面,那么不同的值是怎么分组的?分配策略的实质是什么?

猜测是根据hash取模来分,相同的余数会分到同一个组里面,也就是说会被同一个线程处理。

做个简单的测试:

storm版本:0.9.5

jstorm版本:2.1.1

主类代码如下:

public class FieldGroupTest {

    public static void main(String[] args) throws AlreadyAliveException, InvalidTopologyException {
        TopologyBuilder builder = new TopologyBuilder();

        builder.setSpout("spout", new SplitSpoultTest(), 1);
        //指定3个,便于测试
        builder.setBolt("bolt", new PinrtBolt(), 3).fieldsGrouping("spout", new Fields("field"));

        Config conf = new Config();
        conf.setDebug(false);

        LocalCluster cluster = new LocalCluster();
        cluster.submitTopology("toplogy", conf, builder.createTopology());
        Utils.sleep(60000);
        cluster.shutdown();

    }
}

为了便于测试,数据源除了27是整除外,其他数据都是除以3余数为1。

spout代码:

public class SplitSpoultTest extends BaseRichSpout {
    int count = 0;
    private SpoutOutputCollector collector;
    //多数是除以3余数为1,27是整除,便于测试 
    String[] array2 =  {"1","4","7","10","13","16","19","22","25","27","28","16"};
    @Override
    public void open(Map map, TopologyContext topologyContext, SpoutOutputCollector spoutOutputCollector) {
        this.collector=spoutOutputCollector;
    }

    @Override
    public void nextTuple() {


        if(count>=array0.length){
            Utils.sleep(10000);
            count=0;
        }
        collector.emit(new Values(array2[count]),array2[count]);
        count++;


    }


    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("field"));

    }


bolt阶段只做输出:

代码如下:

public class PrintBolt  extends BaseBasicBolt {

    @Override
    public void execute(Tuple input, BasicOutputCollector collector) {
        System.out.println("tuple0->"+input.getString(0)+"  "+ Thread.currentThread().getName());

    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {

    }
}
结果猜测:如果fieldGtouping的分配策略是根据hash取模来分的,会有两个线程,余数为1的都会被同一个bolt处理,也就是被同一个线程处理。

实际结果如下:

storm:

tuple0->1  Thread-13-bolt

tuple0->4  Thread-13-bolt tuple0->7  Thread-13-bolt tuple0->10  Thread-13-bolt tuple0->13  Thread-13-bolt tuple0->16  Thread-13-bolt tuple0->19  Thread-13-bolt tuple0->22  Thread-13-bolt tuple0->25  Thread-13-bolt tuple0->27  Thread-11-bolt

jstorm:
tuple0->1  bolt:4-BoltExecutors
tuple0->4  bolt:4-BoltExecutors
tuple0->7  bolt:4-BoltExecutors
tuple0->27  bolt:3-BoltExecutors
tuple0->10  bolt:4-BoltExecutors
tuple0->13  bolt:4-BoltExecutors
tuple0->16  bolt:4-BoltExecutors
tuple0->19  bolt:4-BoltExecutors
tuple0->22  bolt:4-BoltExecutors
tuple0->25  bolt:4-BoltExecutors
tuple0->28  bolt:4-BoltExecutors
tuple0->16  bolt:4-BoltExecutors
测试结果与猜想一致。

总结:storm 和jstorm中fieldsGrouping分配策略的实质是根据指定的字段的值,进行hash取模,根据模进行分配。这也说明了为什么相同的值会被同一个bolt处理。

需要注意的是:在使用fieldsGrouping时,如果发生数据倾斜,会导致其中某个bolt压力过大。




  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值