（四）storm-kafka源码走读之自定义Scheme

最新推荐文章于 2021-11-23 21:51:58 发布

joeywen

最新推荐文章于 2021-11-23 21:51:58 发布

阅读量7.3k

点赞数

分类专栏： Storm-kafka源码走读 Storm-kafka源码浅谈文章标签： storm kafka 大数据实时计算

本文链接：https://blog.csdn.net/wzhg0508/article/details/40874155

版权

本文详细介绍了在storm-kafka中如何自定义Scheme，以适应不同数据需求。通过例子展示了如何处理多字段发射和Avro等复杂格式的反序列化，强调了自定义Scheme在处理KafkaSpout消息流解析中的关键作用。

摘要由CSDN通过智能技术生成

本文原创，转载请注明出处：

使用KafkaSpout需要子类实现Scheme，storm-kafka实现了StringScheme，KeyValueStringScheme等等，大家可以用。

这些Scheme主要负责从消息流中解析出所需要的数据。

public interface Scheme extends Serializable {
    public List<Object> deserialize(byte[] ser);
    public Fields getOutputFields();
}

需要实现反序列化方法和输出fields名称，来看简单StringScheme实现：

public class StringScheme implements Scheme {

    public static final String STRING_SCHEME_KEY = "str";

    public List<Object> deserialize(byte[] bytes) {
        return new Values(deserializeString(bytes));
    }

    public static String deserializeString(byte[] string) {
        try {
            return new String(string, "UTF-8");
        } catch (UnsupportedEncodingException e) {
            throw new RuntimeException(e);
        }
    }

    public Fields getOutputFields() {
        return new Fields(STRING_SCHEME_KEY);
    }
}

其实就是直接返回了一个String，在Spout往后发射时就一个字段，其名为“str”，如果采用StringScheme时，大家在Bolt中可以用

tuple.getStringByField("str")

来获取其值。有人有疑问前面为什么用new SchemeAsMultiScheme(new StringScheme())呐？来看SchemeAsMultiScheme代码

public class SchemeAsMultiScheme implements MultiScheme {
  public final Scheme scheme;

  public SchemeAsMultiScheme(Scheme scheme) {
    this.scheme = scheme;
  }

  @Override public Iterable<List<Object>> deserialize(final byte[] ser) {
    List<Object> o = scheme.deserialize(ser);
    if(o == null) return null;
    else return Arrays.asList(o);
  }

  @Override public Fields getOutputFields() {
    return scheme.getOutputFields();
  }
}

public interface MultiScheme extends Serializable {
  public Iterable<List<Object>> deserialize(byte[] ser);
  public Fields getOutputFields();
}

其实本身还是调用了传入的scheme方法，只不过返回结果组合成一个list而已，小弟觉得不用也可以。但是storm-kafka里面默认是需要的，在KafkaUtils解析message时调用scheme信息：

public static Iterable<List<Object>> generateTuples(KafkaConfig kafkaConfig, Message msg) {
        Iterable<List<Object>> tups;
        ByteBuffer payload = msg.payload();
        if (payload == null) {
            return null;
        }
        ByteBuffer key &#