一、生产者
用Kafka将文件内容转为二进制发送。
package com.fighter.code.kafka;
import org.apache.commons.io.IOUtils;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.RecordMetadata;
import java.io.File;
import java.io.FileInputStream;
import java.util.Properties;
import java.util.concurrent.Future;
/**
* @Author: codeNOBB
* @Date: 2019/1/7 17:23
*/
public class KafkaMain {
public static void main(String[] args) throws Exception {
Properties props = new Properties();
//指定broker的清单地址,建议两个 ,一个挂了还能连另外一个
props.put("bootstrap.servers", "localhost:9092");
//指定了必须要有多少个分区副本收到信息,生产者才会认定消息发送成功
/**
* 0 ,不等待服务器响应。所以不知成功与否,吞吐量很高。
* 1 ,集群首领认可即可。
* all ,所以参与复制的节点都收到消息,才成功。这种模式最安全。放崩溃,对消息一致,集群容错厉害。当然延迟比上面都高。
*/
props.put("acks", "all");
//发送消息出现可重试错误时,配置自动重试,可重发消息次数
props.put("retries", 0);
//多个消息被发往同一个分区时,放同一个批次里,这是批次大小。满就发送!不满也会触发,设置太小,频繁发 就开销大
props.put("batch.size", 10);
//指定发送批次前的填塞时间,默认情况下,有可用线程就会发,就算批次就1个消息。此数>0,就要稍作停顿,装货发车!
props.put("linger.ms", 1);
//生产者内存缓冲区大小
props.put("buffer.memory", 33554432);
// 默认不压缩,设定这个压缩消息,有 :snappy,gzip,lz4 。。!!!!使用压缩可以降低网络传输跟存储开销,通常为Kafka发送消息的瓶颈
// props.put("compression.type", "snappy");
//请求大小 1MB
props.put("max.request.size", 1048576);
//指定了生产者在接收到服务器响应之前可以发送多少个消息,数值越高,就占内存,不过能提高吞吐量。1则是顺序写入,即使发生了重试!!!
props.put("max.in.flight.requests.per.connection", 1);
//实现了org.apache.kafka.common.serialization接口的序列化器
props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("value.serializer", "org.apache.kafka.common.serialization.ByteArraySerializer");
Producer<String, byte[]> producer = new KafkaProducer<>(props);
File f = new File("/Users/kiwi/Documents/papaCode/java/code/applog-data");
int c = 0;
File[] files = f.listFiles();
for (int i = 1; i < files.length; i++) {
File[] zips = files[i].listFiles();
for (int j = 1; j < zips.length; j++) {
FileInputStream fis = new FileInputStream(zips[j]);
byte[] zipBytes = new byte[fis.available()];
IOUtils.readFully(fis,zipBytes);
ProducerRecord<String, byte[]> record = new ProducerRecord<String, byte[]>("applog-zips-2",zips[j].getAbsolutePath(),zipBytes);
//直接发送
Future<RecordMetadata> future= producer.send(record);
//待回调
// producer.send(record,new ProducerCallback());
//同步发送,get()方法会等待发送结果。不用就是异步发送。
RecordMetadata recordMetadata = future.get();
System.out.println("offset :" + recordMetadata.offset());
System.out.println("partition :" + recordMetadata.partition());
System.out.println("checksum :" + recordMetadata.checksum());
}
}
}
}
生产者使用send()方法发送ProducerRecord对象。消息先是被放进缓冲区,然后使用单独的线程发送到服务器端。