Java程序创建Kafka Topic,以及数据生产消费,常用的命令

Kafka简介:

                           Kafka是一个分布式发布——订阅消息传递系统。Kafka快速、可扩展且耐用。它保留主题中的消息源。生产者将数据写入主题,消费者从主题中读取数据。

Kafka的特点:

                    1. 同时为分布和订阅提供高吞吐量。据了解,Kafka每秒可以生产约25万条消息(50MB),每秒处理55万条消息                           (110MB)这里说条数,可能不上特别准确,因为消息的大小可能不一致;
                    2. 可进行持久化操作,将消息持久化到到磁盘,以日志的形式存储,因此可用于批量消费,例如ETL,以及实时应                            用程序。 通过将数据持久化到硬盘以及replication防止数据丢失。
                     3. 分布式系统,易于向外拓展。所有的Producer、broker和consumer都会有多个,均为分布式。无需停机即可拓展                         机器。
                    4. 消息被处理的状态是在consumer端维护,而不是由server端维护,当失败时能自动平衡。
 

Kafka名词解释:

                        producer:消息的生成者

                       consumer:消息的消费者

                       topic:你把它理解为标签

                       broker:Kafka处理资源的消息源(feeds of messages)的不同分类

Kafka常用命令:

                       创建主题(4个分区,2个副本): kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 2 --                                                                                      partitions 4 --topic test

                       查询所有Topic:kafka-topics.sh --zookeeper localhost:2181 --list

                       查看指定得Topic:kafka-topics.sh --zookeeper localhost:2181 --describe --topic t_cdr

                       删除Topic:kafka-run-class.sh kafka.admin.DeleteTopicCommand --zookeeper localhost:2181 --topic t_cdr

                       生产者 :kafka-console-producer.sh --broker-list localhost:9092 --topic test

                       消费者 :kafka-console-consumer.sh --zookeeper localhost:2181 --topic test

                       新生产者(支持0.9版本+): kafka-console-producer.sh --broker-list localhost:9092 --topic test --producer.config                                                                        config/producer.properties

                       新消费者(支持0.9版本+): kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --new-                                                                             consumer --from-beginning --consumer.config config/consumer.properties


Java程序操作创建Topic:   

         Properties props = new Properties();

              props.put("bootstrap.servers", "localhost:9092");

              props.put("acks", "all"); props.put("retries", 0);

              props.put("batch.size", 16384); props.put("linger.ms", 1);

              props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); 

              props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

              AdminClient  create = KafkaAdminClient.create(props);//创建Topic

                   create.createTopics(Lists.newArrayList(new NewTopic("Topic名称"),1,(short)1));//一个分区

                 create.close();//关闭 

               其他创建Topic得方式Java API:https://blog.csdn.net/meng984611383/article/details/80500761

Kafka生产数据:

                 Producer<String, String> producer = new KafkaProducer<>(props);

                      for(int i = 0; i < 100; i++) //生产数据

                            producer.send(new ProducerRecord<String, String>("Topic名称", Integer.toString(i), Integer.toString(i)));

                   producer.close(); //关闭

Kafka消费数据:

                 KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);

                       consumer.subscribe(Arrays.asList("foo", "bar"));

                          while (true) {

                              ConsumerRecords<String, String> records = consumer.poll(100);

                                    for (ConsumerRecord<String, String> record : records)

                                        System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());

                             }  

生产者的缓冲空间池保留尚未发送到服务器的消息,后台I/O线程负责将这些消息转换成请求发送到集群。如果使用后不关闭生产者,则会泄露这些资源。

send()方法是异步的,添加消息到缓冲区等待发送,并立即返回。生产者将单个的消息批量在一起发送来提高效率。

ack是判别请求是否为完整的条件(就是是判断是不是成功发送了)。我们指定了“all”将会阻塞消息,这种设置性能最低,但是是最可靠的。

retries,如果请求失败,生产者会自动重试,我们指定是0次,如果启用重试,则会有重复消息的可能性。

producer(生产者)缓存每个分区未发送的消息。缓存的大小是通过 batch.size 配置指定的。值较大的话将会产生更大的批。并需要更多的内存(因为每个“活跃”的分区都有1个缓冲区)。

默认缓冲可立即发送,即便缓冲空间还没有满,但是,如果你想减少请求的数量,可以设置linger.ms大于0。这将指示生产者发送请求之前等待一段时间,希望更多的消息填补到未满的批中。这类似于TCP的算法,例如上面的代码段,可能100条消息在一个请求发送,因为我们设置了linger(逗留)时间为1毫秒,然后,如果我们没有填满缓冲区,这个设置将增加1毫秒的延迟请求以等待更多的消息。需要注意的是,在高负载下,相近的时间一般也会组成批,即使是 linger.ms=0。在不处于高负载的情况下,如果设置比0大,以少量的延迟代价换取更少的,更有效的请求。

buffer.memory 控制生产者可用的缓存总量,如果消息发送速度比其传输到服务器的快,将会耗尽这个缓存空间。当缓存空间耗尽,其他发送调用将被阻塞,阻塞时间的阈值通过max.block.ms设定,之后它将抛出一个TimeoutException。

key.serializervalue.serializer示例,将用户提供的key和value对象ProducerRecord转换成字节,你可以使用附带的ByteArraySerializaerStringSerializer处理简单的string或byte类型。

 

 

 

        

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值