API

Producer API

此处只简介一个procedure的例子

生产类是用来创建新消息的主题和可选的分区。

如果使用Java你需要包括几个包和支持类:

import kafka.javaapi.producer.Producer;

import kafka.producer.KeyedMessage;

import kafka.producer.ProducerConfig;

 

第一步首先定义producer如何找到集群,如何序列化消息和为消息选择适合的分区。下面吧这些定义在一个标准的JAVA  Properties类中

Properties props = new Properties();
 
props.put("metadata.broker.list","broker1:9092,broker2:9092");
props.put("serializer.class","kafka.serializer.StringEncoder");
props.put("partitioner.class","example.producer.SimplePartitioner");
props.put("request.required.acks","1");
ProducerConfig config = new ProducerConfig(props);


1.        metadata.broker.list 定义了生产者如何找到一个或多个Broker去确定每个topicLeader这不需要你设置集群中全套的brokers但至少应包括两个,第一个经纪人不可用可以替换。不需要担心需要指出broker为主题的领袖(分区),生产者知道如何连接到代理请求元数据并连接到正确的broker。

2.  第二个属性“序列化类定义“。定义使用什么序列化程序传递消息。在我们的例子中,我们使用一个卡夫卡提供的简单的字符串编码器。请注意,encoder必须和下一步的keyedmessage使用相同的类型

可以适当的定义"key.serializer.class"根据key改变序列化类。默认的是与"serializer.class"相同

3.        第三个属性partitioner.class 定义了决定topic中的分区发送规则。这个属性是可选的,但是对于你的特殊的分区实现是重要的。如果存在key将使用kafka默认的分组规则,如果keynull 则使用随机的分区发送策略。

4.        最后一个属性“request.required.acks”将设置kafka知否需要broker的回应。如果不设置可能将导致数据丢失。

1.1         此处可以设置为0 生产者不等待broker的回应。会有最低能的延迟和最差的保证性(在服务器失败后会导致信息丢失)

1.2         此处可以设置为1生产者会收到leader的回应在leader写入之后。(在当前leader服务器为复制前失败可能会导致信息丢失)

1.3         此处可以设置为-1生产者会收到leader的回应在全部拷贝完成之后。

之后可以定义生产者

Producer<String, String> producer =new Producer<String, String>(config);

此处泛型的第一个type是分区的key的类型。第二个是消息的类型。与上面Properties中定义的对应。


现在定义messgae

Random rnd = new Random();
long runtime = new Date().getTime();
String ip = “192.168.2.” +rnd.nextInt(255);
String msg = runtime + “,www.example.com,”+ ip;

此处模拟一个website的访问记录。之后想broker中写入信息.

KeyedMessage<String, String> data =new KeyedMessage<String, String>("page_visits",

ip, msg);

producer.send(data);

此处的“page_visits”是要写入的Topic。此处我们将IP设置为分区的key值。注意如果你没有设置键值,即使你定义了一个分区类,kafka也将使用随机发送.

Full Code:

import java.util.*;
 
import kafka.javaapi.producer.Producer;
import kafka.producer.KeyedMessage;
import kafka.producer.ProducerConfig;
 
public class TestProducer {
   public static void main(String[] args) {
       long events = Long.parseLong(args[0]);
       Random rnd = new Random();
 
       Properties props = new Properties();
       props.put("metadata.broker.list","broker1:9092,broker2:9092 ");
       props.put("serializer.class","kafka.serializer.StringEncoder");
       props.put("partitioner.class","example.producer.SimplePartitioner");
       props.put("request.required.acks", "1");
       ProducerConfig config = new ProducerConfig(props);
       Producer<String, String> producer = new Producer<String,String>(config);
       for (long nEvents = 0; nEvents < events; nEvents++) {
               long runtime = newDate().getTime(); 
               String ip = “192.168.2.” +rnd.nextInt(255);
               String msg = runtime +“,www.example.com,” + ip;
               KeyedMessage<String,String> data = new KeyedMessage<String, String>("page_visits",ip(key), msg);
               producer.send(data);
       }
       producer.close();
    }
}
 
Partitioning Code: (分区函数)
import kafka.producer.Partitioner;
import kafka.utils.VerifiableProperties;
public class SimplePartitioner implementsPartitioner<String> {
   public SimplePartitioner (VerifiableProperties props) {
    }
   public int partition(String key, int a_numPartitions) {
       int partition = 0;
       int offset = key.lastIndexOf('.');
       if (offset > 0) {
          partition = Integer.parseInt( key.substring(offset+1)) %a_numPartitions;
       }
      return partition;
  }
}

上面分区的作用是相同的IP将发送至相同的分区。但此时你的消费者需要知道如何去处理这样的规则消息。

使用前需要建立topic

bin/kafka-create-topic.sh --topicpage_visits --replica 3 --zookeeper localhost:2181 --partition 5

可以使用下面的工具验证你发送的消息

bin/kafka-console-consumer.sh --zookeeperlocalhost:2181 --topic page_visits --from-beginning

High Level Consumer API

顶层接口:

class Consumer {
/**
  *  创建java的消费者与kafka的connect
  *  @param config  至少需要提供consumer的groupId和zookeeper.connect.
   */
public statickafka.javaapi.consumer.ConsumerConnector createJavaConsumerConnector(config:ConsumerConfig);
}
ConsumerConnector:
public interfacekafka.javaapi.consumer.ConsumerConnector {
  /**
  *  为每一个主题创建一个泛型的消息流
  *  @param topicCountMap  提供topic和Stream的一一对应
  *  @param decoder 解析器 
  *  @return Map   <topic ,List<#streams>>
  *                   此处的KafkaStream提供对内容的Iterable读取
   */
 public <K,V> Map<String, List<KafkaStream<K,V>>>
    createMessageStreams(Map<String,Integer> topicCountMap, Decoder<K> keyDecoder, Decoder<V>valueDecoder);
 
  /**
  *  同上.
   */
 public Map<String, List<KafkaStream<byte[], byte[]>>>createMessageStreams(Map<String, Integer> topicCountMap);
 
  /**
   *          建一个匹配的通配符主题的消息流的List
  *  @param topicFilter一个topicfilter指定Consumer订阅的话题(
  *  包含了一个白名单和黑名单).
  *  @param numStreams messagestreams的数量
  *  @param keyDecoder message key解析器
  *  @param valueDecoder a message解析器
  *  @return 同上
   */
 public <K,V> List<KafkaStream<K,V>>
   createMessageStreamsByFilter(TopicFilter topicFilter, int numStreams,Decoder<K> keyDecoder, Decoder<V> valueDecoder);
 
 ………………………….(其余接口类似,是上述方法的重载方法)
 
  /**
  *  提交本连接器所连接的所有分区和主题
   */
 public void commitOffsets();
 
  /**
  *  停止当前Consumer
   */
 public void shutdown();
}

 

e.g  example

1. 为什使用高级消费者(High Level Consumer)

         有时消费者从卡夫卡读取消息不在乎处理消息的偏移量逻辑,只是消费消息内部的信息。高级消费者提供了消费信息的方法而屏蔽了大量的底层细节。

         首先要知道的是,高级消费者从zookeeper的特殊分区存储最新偏离。这个偏移当kafka启动时准备完毕。这一般是指消费者群体(Consumer group[此处的意思,kafka中的消息是发送到Consumer group中的任一个consumer上的,kafka保存的是整体的偏移。此处不知是否理解正确请大虾指点。]

         请小心,对于kafka集群消费群体的名字是全局的,任何的逻辑的消费者应该被关闭,然后运行新的代码。当一个新的进程拥有相同的消费者群的名字,卡夫卡将会增加进程的线程消费topic并且引发的重新平衡(reblannce在这个重新平衡中,卡夫卡将分配现有分区到所有可用线程,可能移动一个分区到另一个进程的消费分区。如果此时同时拥有旧的的新的代码逻辑,将会有一部分逻辑进入旧得Consumer而另一部分进入新的Consumer中的情况.

2. Designing a High Level Consumer

了解使用高层次消费者的第一件事是,它可以(而且应该!)是一个多线程的应用。线程围绕在你的主题分区的数量,有一些非常具体的规则:

1.       如果你提供比在主题分区多的线程数量,一些线程将不会看到消息

2.       如果你提供的分区比你拥有的线程多,线程将从多个分区接收数据

3.       如果你每个线程上有多个分区,对于你以何种顺序收到消息是没有保证的。举个栗子,你可能从分区10上获取5条消息和分区11上的6条消息,然后你可能一直从10上获取消息,即使11上也拥有数据。

4.      添加更多的进程/线程将使卡夫卡重新平衡,可能改变一个分区到线程的分配。

这里是一个简单的消费者栗子:

package com.test.groups;
 
import kafka.consumer.ConsumerIterator;
import kafka.consumer.KafkaStream;
 
public class ConsumerTest implements Runnable {
    privateKafkaStream m_stream;
    private intm_threadNumber;
 
    publicConsumerTest(KafkaStream a_stream, int a_threadNumber) {
       m_threadNumber = a_threadNumber;
        m_stream =a_stream;
    }
 
    public void run() {
       ConsumerIterator<byte[], byte[]> it = m_stream.iterator();
        while(it.hasNext())
System.out.println("Thread " + m_threadNumber+ ": " + new String(it.next().message()));
       System.out.println("Shutting down Thread: " + m_threadNumber);
    }
}

在这里有趣的是,(it.hasnext())。这个代码将从卡夫卡读取直到你停下来。

3. Config

不像simpleconsumer高层消费者为你很多的提供需要bookkeeping(?)和错误处理。但是你要告诉卡夫卡这些信息。下面的方法定义了创建高级消费者基础配置:

private static ConsumerConfigcreateConsumerConfig(String a_zookeeper, String a_groupId) {
        Propertiesprops = new Properties();
       props.put("zookeeper.connect", a_zookeeper);
        props.put("group.id", a_groupId);
       props.put("zookeeper.session.timeout.ms", "400");
       props.put("zookeeper.sync.time.ms", "200");
       props.put("auto.commit.interval.ms", "1000");
        return newConsumerConfig(props);
    }

zookeeper.connect  指定zookeeper集群中的一个实例,kafka利用zookeeper储存topic的分区偏移值。

Groupid 消费者所属的Consumer Group(消费者群体)

zookeeper.session.timeout.ms zookeeper的超时处理

auto.commit.interval.ms   属性自动提交的间隔。这将替代消息被消费后提交。如果发生错误,你将从新获得未更新的消息。

4.使用线程池处理消息
public void run(int a_numThreads) {
   Map<String, Integer> topicCountMap = new HashMap<String,Integer>();
   topicCountMap.put(topic, new Integer(a_numThreads));
   Map<String, List<KafkaStream<byte[], byte[]>>>consumerMap = consumer.createMessageStreams(topicCountMap);
   List<KafkaStream<byte[], byte[]>> streams =consumerMap.get(topic);
   // now launch all the threads
   executor = Executors.newFixedThreadPool(a_numThreads);
 
   // now create an object to consume the messages
   int threadNumber = 0;
   for (final KafkaStream stream : streams) {
       executor.submit(new ConsumerTest(stream, threadNumber));
       threadNumber++;
    }
}

首先我们创建一个map,告诉kafka提供给哪个topic多少线程。consumer.createmessagestreams是我们如何把这个信息传递给卡夫卡。返回的是一个包含kafkastream 的以topic 为键listmap结合。(注意,这里我们只向卡夫卡注册一个话题,但我们可以为map中多添加一个元素的)

最后,我们创建的线程池和通过一项新的consumertest对象,每个线程运转我们的业务逻辑。

5.   清理和异常处理

Kafka在每次处理后不会立即更新zookeeper上的偏移值,她会休息上一段时间后提交。在这段时间内,你的消费者可能已经消费了一些消息,但并没有提交到zookeeper上。这样你可能会重复消费数据。

同时一些时候,broker失败从新选取leader是也可能会导致重复消费消息。

为了避免这种情况应该清理完成后再关闭,而不是直接使用kill命令。

e.g

try {
   Thread.sleep(10000);
} catch (InterruptedException ie) {
}
example.shutdown();
full code
package com.test.groups;
 
import kafka.consumer.ConsumerConfig;
import kafka.consumer.KafkaStream;
importkafka.javaapi.consumer.ConsumerConnector;
 
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Properties;
importjava.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
 
public class ConsumerGroupExample {
   private final ConsumerConnector consumer;
   private final String topic;
   private  ExecutorService executor;
 
   public ConsumerGroupExample(String a_zookeeper, String a_groupId, Stringa_topic) {
       consumer = kafka.consumer.Consumer.createJavaConsumerConnector(
               createConsumerConfig(a_zookeeper, a_groupId));
       this.topic = a_topic;
    }
 
   public void shutdown() {
       if (consumer != null) consumer.shutdown();
       if (executor != null) executor.shutdown();
    }
 
   public void run(int a_numThreads) {
       Map<String, Integer> topicCountMap = new HashMap<String,Integer>();
       topicCountMap.put(topic, new Integer(a_numThreads));
       Map<String, List<KafkaStream<byte[], byte[]>>>consumerMap = consumer.createMessageStreams(topicCountMap);
       List<KafkaStream<byte[], byte[]>> streams =consumerMap.get(topic);
 
       // now launch all the threads
       //
       executor = Executors.newFixedThreadPool(a_numThreads);
 
       // now create an object to consume the messages
       //
       int threadNumber = 0;
       for (final KafkaStream stream : streams) {
           executor.submit(new ConsumerTest(stream, threadNumber));
           threadNumber++;
       }
    }
 
   private static ConsumerConfig createConsumerConfig(String a_zookeeper,String a_groupId) {
       Properties props = new Properties();
       props.put("zookeeper.connect", a_zookeeper);
       props.put("group.id", a_groupId);
       props.put("zookeeper.session.timeout.ms", "400");
       props.put("zookeeper.sync.time.ms", "200");
       props.put("auto.commit.interval.ms", "1000");
 
       return new ConsumerConfig(props);
    }
 
   public static void main(String[] args) {
       String zooKeeper = args[0];
       String groupId = args[1];
       String topic = args[2];
       int threads = Integer.parseInt(args[3]);
 
       ConsumerGroupExample example = new ConsumerGroupExample(zooKeeper,groupId, topic);
       example.run(threads);
 
       try {
           Thread.sleep(10000);
       } catch (InterruptedException ie) {
 
       }
       example.shutdown();
    }
}

此处的启动命令需提供

server01.myco.com1:2181 group3   myTopic  4

1.      server01.myco.com1:2181 zookeeper 的端口和地址

2.      group3   Consumer Group Name

3.      myTopic  consumer消费消息的message

4.      消费topic的线程数