使用Kafka以字节数组的形式传输文件
最近遇到解析大量小文件的需求,之前都是将文件放到HDFS,然后读取进行解析。
由于都是小文件且文件量很多,所以不想使用HDFS,于是采用Kafka来做中间件,效果还不错,特此分享。
原理是将文件以字节流的形式读入字节数组中,将字节数组发送到Kafka,供下游消费。
适用于海量小文件的处理。
实现
生产者
package com.upupfeng.kafka;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.io.File;
import java.io.FileInputStream;
import java.util.Properties;
/**
* 将文件内容序列化,发到kafka中
*
* @author mawf
*/
public class SendFileToKafka {
public static void main(String[] args) {
String filePath = "D:\\dev\\a.xml.gz";
Properties kafkaProps = new Properties();
kafkaProps.put("bootstrap.servers", "server1:9092");
kafkaProps.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
kafkaProps.put("value.serializer", "org.apache.kafka.common.serialization.ByteArraySerializer");
KafkaProducer