API
Producer API
此处只简介一个procedure的例子
生产类是用来创建新消息的主题和可选的分区。
如果使用Java你需要包括几个包和支持类:
import kafka.javaapi.producer.Producer;
import kafka.producer.KeyedMessage;
import kafka.producer.ProducerConfig;
第一步首先定义producer如何找到集群,如何序列化消息和为消息选择适合的分区。下面吧这些定义在一个标准的JAVA Properties类中
Properties props = new Properties();
props.put("metadata.broker.list","broker1:9092,broker2:9092");
props.put("serializer.class","kafka.serializer.StringEncoder");
props.put("partitioner.class","example.producer.SimplePartitioner");
props.put("request.required.acks","1");
ProducerConfig config = new ProducerConfig(props);
1. metadata.broker.list 定义了生产者如何找到一个或多个Broker去确定每个topic的Leader。这不需要你设置集群中全套的brokers但至少应包括两个,第一个经纪人不可用可以替换。不需要担心需要指出broker为主题的领袖(分区),生产者知道如何连接到代理请求元数据并连接到正确的broker。
2. 第二个属性“序列化类定义“。定义使用什么序列化程序传递消息。在我们的例子中,我们使用一个卡夫卡提供的简单的字符串编码器。请注意,encoder必须和下一步的keyedmessage使用相同的类型
可以适当的定义"key.serializer.class"根据key改变序列化类。默认的是与"serializer.class"相同
3. 第三个属性partitioner.class 定义了决定topic中的分区发送规则。这个属性是可选的,但是对于你的特殊的分区实现是重要的。如果存在key将使用kafka默认的分组规则,如果key为null 则使用随机的分区发送策略。
4. 最后一个属性“request.required.acks”将设置kafka知否需要broker的回应。如果不设置可能将导致数据丢失。
1.1 此处可以设置为0 生产者不等待broker的回应。会有最低能的延迟和最差的保证性(在服务器失败后会导致信息丢失)
1.2 此处可以设置为1生产者会收到leader的回应在leader写入之后。(在当前leader服务器为复制前失败可能会导致信息丢失)
1.3 此处可以设置为-1生产者会收到leader的回应在全部拷贝完成之后。
之后可以定义生产者
Producer<String, String> producer =new Producer<String, String>(config);
此处泛型的第一个type是分区的key的类型。第二个是消息的类型。与上面Properties中定义的对应。
现在定义messgae
Random rnd = new Random();
long runtime = new Date().getTime();
String ip = “192.168.2.” +rnd.nextInt(255);
String msg = runtime + “,www.example.com,”+ ip;
此处模拟一个website的访问记录。之后想broker中写入信息.
KeyedMessage<String, String> data =new KeyedMessage<String, String>("page_visits",
ip, msg);
producer.send(data);
此处的“page_visits”是要写入的Topic。此处我们将IP设置为分区的key值。注意如果你没有设置键值,即使你定义了一个分区类,kafka也将使用随机发送.
Full Code:
import java.util.*;
import kafka.javaapi.producer.Producer;
import kafka.producer.KeyedMessage;
import kafka.producer.ProducerConfig;
public class TestProducer {
public static void main(String[] args) {
long events = Long.parseLong(args[0]);
Random rnd = new Random();
Properties props = new Properties();
props.put("metadata.broker.list","broker1:9092,broker2:9092 ");
props.put("serializer.class","kafka.serializer.StringEncoder");
props.put("partitioner.class","example.producer.SimplePartitioner");
props.put("request.required.acks", "1");
ProducerConfig config = new ProducerConfig(props);
Producer<String, String> producer = new Producer<String,String>(config);
for (long nEvents = 0; nEvents < events; nEvents++) {
long runtime = newDate().getTime();
String ip = “192.168.2.” +rnd.nextInt(255);
String msg = runtime +“,www.example.com,” + ip;
KeyedMessage<String,String> data = new KeyedMessage<String, String>("page_visits",ip(key), msg);
producer.send(data);
}
producer.close();
}
}
Partitioning Code: (分区函数)
import kafka.producer.Partitioner;
import kafka.utils.VerifiableProperties;
public class SimplePartitioner implementsPartitioner<String> {
public SimplePartitioner (VerifiableProperties props) {
}
public int partition(String key, int a_numPartitions) {
int partition = 0;
int offset = key.lastIndexOf('.');
if (offset > 0) {
partition = Integer.parseInt( key.substring(offset+1)) %a_numPartitions;
}
return partition;
}
}
上面分区的作用是相同的IP将发送至相同的分区。但此时你的消费者需要知道如何去处理这样的规则消息。
使用前需要建立topic
bin/kafka-create-topic.sh --topicpage_visits --replica 3 --zookeeper localhost:2181 --partition 5
可以使用下面的工具验证你发送的消息
bin/kafka-console-consumer.sh --zookeeperlocalhost:2181 --topic page_visits --from-beginning
High Level Consumer API
顶层接口:
class Consumer {
/**
* 创建java的消费者与kafka的connect
* @param config 至少需要提供consumer的groupId和zookeeper.connect.
*/
public statickafka.javaapi.consumer.ConsumerConnector createJavaConsumerConnector(config:ConsumerConfig);
}
ConsumerConnector:
public interfacekafka.javaapi.consumer.ConsumerConnector {
/**
* 为每一个主题创建一个泛型的消息流
* @param topicCountMap 提供topic和Stream的一一对应
* @param decoder 解析器
* @return Map <topic ,List<#streams>>
* 此处的KafkaStream提供对内容的Iterable读取
*/
public <K,V> Map<String, List<KafkaStream<K,V>>>
createMessageStreams(Map<String,Integer> topicCountMap, Decoder<K> keyDecoder, Decoder<V>valueDecoder);
/**
* 同上.
*/
public Map<String, List<KafkaStream<byte[], byte[]>>>createMessageStreams(Map<String, Integer> topicCountMap);
/**
* 建一个匹配的通配符主题的消息流的List
* @param topicFilter一个topicfilter指定Consumer订阅的话题(
* 包含了一个白名单和黑名单).
* @param numStreams messagestreams的数量
* @param keyDecoder message key解析器
* @param valueDecoder a message解析器
* @return 同上
*/
public <K,V> List<KafkaStream<K,V>>
createMessageStreamsByFilter(TopicFilter topicFilter, int numStreams,Decoder<K> keyDecoder, Decoder<V> valueDecoder);
………………………….(其余接口类似,是上述方法的重载方法)
/**
* 提交本连接器所连接的所有分区和主题
*/
public void commitOffsets();
/**
* 停止当前Consumer
*/
public void shutdown();
}
e.g example
1. 为什使用高级消费者(High Level Consumer)
有时消费者从卡夫卡读取消息不在乎处理消息的偏移量逻辑,只是消费消息内部的信息。高级消费者提供了消费信息的方法而屏蔽了大量的底层细节。
首先要知道的是,高级消费者从zookeeper的特殊分区存储最新偏离。这个偏移当kafka启动时准备完毕。这一般是指消费者群体(Consumer group)[此处的意思,kafka中的消息是发送到Consumer group中的任一个consumer上的,kafka保存的是整体的偏移。此处不知是否理解正确请大虾指点。]
请小心,对于kafka集群消费群体的名字是全局的,任何的“老”逻辑的消费者应该被关闭,然后运行新的代码。当一个新的进程拥有相同的消费者群的名字,卡夫卡将会增加进程的线程消费topic并且引发的“重新平衡(reblannce)”。在这个重新平衡中,卡夫卡将分配现有分区到所有可用线程,可能移动一个分区到另一个进程的消费分区。如果此时同时拥有旧的的新的代码逻辑,将会有一部分逻辑进入旧得Consumer而另一部分进入新的Consumer中的情况.
2. Designing a High Level Consumer
了解使用高层次消费者的第一件事是,它可以(而且应该!)是一个多线程的应用。线程围绕在你的主题分区的数量,有一些非常具体的规则:
1. 如果你提供比在主题分区多的线程数量,一些线程将不会看到消息
2. 如果你提供的分区比你拥有的线程多,线程将从多个分区接收数据
3. 如果你每个线程上有多个分区,对于你以何种顺序收到消息是没有保证的。举个栗子,你可能从分区10上获取5条消息和分区11上的6条消息,然后你可能一直从10上获取消息,即使11上也拥有数据。
4. 添加更多的进程/线程将使卡夫卡重新平衡,可能改变一个分区到线程的分配。
这里是一个简单的消费者栗子:
package com.test.groups;
import kafka.consumer.ConsumerIterator;
import kafka.consumer.KafkaStream;
public class ConsumerTest implements Runnable {
privateKafkaStream m_stream;
private intm_threadNumber;
publicConsumerTest(KafkaStream a_stream, int a_threadNumber) {
m_threadNumber = a_threadNumber;
m_stream =a_stream;
}
public void run() {
ConsumerIterator<byte[], byte[]> it = m_stream.iterator();
while(it.hasNext())
System.out.println("Thread " + m_threadNumber+ ": " + new String(it.next().message()));
System.out.println("Shutting down Thread: " + m_threadNumber);
}
}
在这里有趣的是,(it.hasnext())。这个代码将从卡夫卡读取直到你停下来。
3. Config
不像simpleconsumer高层消费者为你很多的提供需要bookkeeping(?)和错误处理。但是你要告诉卡夫卡这些信息。下面的方法定义了创建高级消费者基础配置:
private static ConsumerConfigcreateConsumerConfig(String a_zookeeper, String a_groupId) {
Propertiesprops = new Properties();
props.put("zookeeper.connect", a_zookeeper);
props.put("group.id", a_groupId);
props.put("zookeeper.session.timeout.ms", "400");
props.put("zookeeper.sync.time.ms", "200");
props.put("auto.commit.interval.ms", "1000");
return newConsumerConfig(props);
}
zookeeper.connect 指定zookeeper集群中的一个实例,kafka利用zookeeper储存topic的分区偏移值。
Groupid 消费者所属的Consumer Group(消费者群体)
zookeeper.session.timeout.ms zookeeper的超时处理
auto.commit.interval.ms 属性自动提交的间隔。这将替代消息被消费后提交。如果发生错误,你将从新获得未更新的消息。
4.使用线程池处理消息
public void run(int a_numThreads) {
Map<String, Integer> topicCountMap = new HashMap<String,Integer>();
topicCountMap.put(topic, new Integer(a_numThreads));
Map<String, List<KafkaStream<byte[], byte[]>>>consumerMap = consumer.createMessageStreams(topicCountMap);
List<KafkaStream<byte[], byte[]>> streams =consumerMap.get(topic);
// now launch all the threads
executor = Executors.newFixedThreadPool(a_numThreads);
// now create an object to consume the messages
int threadNumber = 0;
for (final KafkaStream stream : streams) {
executor.submit(new ConsumerTest(stream, threadNumber));
threadNumber++;
}
}
首先我们创建一个map,告诉kafka提供给哪个topic多少线程。consumer.createmessagestreams是我们如何把这个信息传递给卡夫卡。返回的是一个包含kafkastream 的以topic 为键list的map结合。(注意,这里我们只向卡夫卡注册一个话题,但我们可以为map中多添加一个元素的)
最后,我们创建的线程池和通过一项新的consumertest对象,每个线程运转我们的业务逻辑。
5. 清理和异常处理
Kafka在每次处理后不会立即更新zookeeper上的偏移值,她会休息上一段时间后提交。在这段时间内,你的消费者可能已经消费了一些消息,但并没有提交到zookeeper上。这样你可能会重复消费数据。
同时一些时候,broker失败从新选取leader是也可能会导致重复消费消息。
为了避免这种情况应该清理完成后再关闭,而不是直接使用kill命令。
e.g
try {
Thread.sleep(10000);
} catch (InterruptedException ie) {
}
example.shutdown();
full code
package com.test.groups;
import kafka.consumer.ConsumerConfig;
import kafka.consumer.KafkaStream;
importkafka.javaapi.consumer.ConsumerConnector;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Properties;
importjava.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
public class ConsumerGroupExample {
private final ConsumerConnector consumer;
private final String topic;
private ExecutorService executor;
public ConsumerGroupExample(String a_zookeeper, String a_groupId, Stringa_topic) {
consumer = kafka.consumer.Consumer.createJavaConsumerConnector(
createConsumerConfig(a_zookeeper, a_groupId));
this.topic = a_topic;
}
public void shutdown() {
if (consumer != null) consumer.shutdown();
if (executor != null) executor.shutdown();
}
public void run(int a_numThreads) {
Map<String, Integer> topicCountMap = new HashMap<String,Integer>();
topicCountMap.put(topic, new Integer(a_numThreads));
Map<String, List<KafkaStream<byte[], byte[]>>>consumerMap = consumer.createMessageStreams(topicCountMap);
List<KafkaStream<byte[], byte[]>> streams =consumerMap.get(topic);
// now launch all the threads
//
executor = Executors.newFixedThreadPool(a_numThreads);
// now create an object to consume the messages
//
int threadNumber = 0;
for (final KafkaStream stream : streams) {
executor.submit(new ConsumerTest(stream, threadNumber));
threadNumber++;
}
}
private static ConsumerConfig createConsumerConfig(String a_zookeeper,String a_groupId) {
Properties props = new Properties();
props.put("zookeeper.connect", a_zookeeper);
props.put("group.id", a_groupId);
props.put("zookeeper.session.timeout.ms", "400");
props.put("zookeeper.sync.time.ms", "200");
props.put("auto.commit.interval.ms", "1000");
return new ConsumerConfig(props);
}
public static void main(String[] args) {
String zooKeeper = args[0];
String groupId = args[1];
String topic = args[2];
int threads = Integer.parseInt(args[3]);
ConsumerGroupExample example = new ConsumerGroupExample(zooKeeper,groupId, topic);
example.run(threads);
try {
Thread.sleep(10000);
} catch (InterruptedException ie) {
}
example.shutdown();
}
}
此处的启动命令需提供
server01.myco.com1:2181 group3 myTopic 4
1. server01.myco.com1:2181 zookeeper 的端口和地址
2. group3 Consumer Group Name
3. myTopic consumer消费消息的message
4. 消费topic的线程数
转载于:https://blog.51cto.com/gfstart/1419245