Flink(十一)Flink连接Kafka输出到HDFS

一、配置项目的依赖

其中flink-connector-filesystem_2.11是将Hadoop作为Flink的BucketingSink接入,

hadoop-hdfs、hadoop-common、hadoop-client解决Jar包依赖的问题,2.7.3为hadoop的版本号。

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-filesystem_2.11</artifactId>
            <version>1.8.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.7.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.3</version>
        </dependency>

二、Flink启动程序

当数据到达时,分段接收器将按当前系统时间拆分,并使用日期时间模式"yyyy-MM-dd--HH"命名存储区。这种模式传递给DateTimeFormatter使用当前系统时间和东八时区(上海)来形成存储桶路径。每当遇到新日期时,都会创建一个新存储桶。每个存储桶本身都是一个包含多个块文件的目录:接收器的每个并行实例将创建自己的块文件,当块文件超过100MB或超过20分钟时,接收器也会创建新的块文件。当存储桶变为非活动状态(非in-progress状态)时,将刷新并关闭打开的部件文件。如果存储桶最近未写入,则视为非活动状态。默认情况下,接收器每分钟检查一次非活动存储桶,并关闭任何超过一分钟未写入的存储桶

        StreamExecutionEnvironment flinkEnv = StreamExecutionEnvironment.getExecutionEnvironment();
	// 获取Kafka配置
	Properties props = new Properties();
	props.putAll(kafkaProperties.buildConsumerProperties());
	// 创建Kafka-Source
	FlinkKafkaConsumer<String> consumer = new FlinkKafkaConsumer<>(KafkaTopic.TRACK_LOGS, new SimpleStringSchema(), props);
	// 添加Kafka-Source
	DataStreamSource<String> source = flinkEnv.addSource(consumer);
	// 方式1:将数据导入Hadoop的文件夹
	//recordData.writeAsText("hdfs://hadoop:9000/flink/");
	// 方式2:将数据导入Hadoop的文件夹
	BucketingSink<String> hadoopSink = new BucketingSink<>("hdfs://hadoop:9000/flink/");
	// 使用东八区时间格式"yyyy-MM-dd--HH"命名存储区
	hadoopSink.setBucketer(new DateTimeBucketer<>("yyyy-MM-dd--HH", ZoneId.of("Asia/Shanghai")));
	// 下述两种条件满足其一时,创建新的块文件
	// 条件1.设置块大小为100MB
	hadoopSink.setBatchSize(1024 * 1024 * 100);
	// 条件2.设置时间间隔20min
	hadoopSink.setBatchRolloverInterval(20 * 60 * 1000);
	// 设置块文件前缀
	hadoopSink.setPendingPrefix("");
	// 设置块文件后缀
	hadoopSink.setPendingSuffix("");
	// 设置运行中的文件前缀
	hadoopSink.setInProgressPrefix(".");
	// 添加Hadoop-Sink,处理相应逻辑
	source.addSink(hadoopSink);
	flinkEnv.execute();

存储桶文件的格式

/base/path/{date-time}/part-{parallel-task}-{count}

date-time我们从日期/时间格式获取的字符串,parallel-task是并行接收器实例的索引,count是由于批处理大小创建的块文件的运行数。

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Apache Flink 是一个流处理框架,支持实时数据处理和批处理。Flink 可以轻松地与 Apache Kafka 集成,实现从 Kafka 中读取数据并将其写入 HDFS。 下面是实现实时同步 Kafka 数据到 HDFS 的基本步骤: 1. 在 Flink 中引入 KafkaHDFS 的依赖。 2. 创建一个 Flink StreamExecutionEnvironment 对象,并设置相关参数。 3. 创建一个 Kafka 数据源,并从 Kafka 中读取数据。 4. 对读取的数据进行转换和处理。 5. 将处理后的数据写入 HDFS 中。 以下是一个基本的示例代码: ```java import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.java.utils.ParameterTool; import org.apache.flink.core.fs.FileSystem.WriteMode; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer09; import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer09; public class KafkaToHDFS { public static void main(String[] args) throws Exception { // 从命令行参数中读取参数 final ParameterTool params = ParameterTool.fromArgs(args); // 创建一个 Flink StreamExecutionEnvironment 对象,并设置相关参数 final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(params.getInt("parallelism", 1)); // 设置 Kafka 数据源 Properties props = new Properties(); props.setProperty("bootstrap.servers", "localhost:9092"); props.setProperty("group.id", "test"); FlinkKafkaConsumer09<String> consumer = new FlinkKafkaConsumer09<>( params.getRequired("topic"), new SimpleStringSchema(), props); // 从 Kafka 中读取数据 DataStream<String> stream = env.addSource(consumer); // 对读取的数据进行转换和处理 DataStream<String> transformed = stream.map(new MapFunction<String, String>() { @Override public String map(String value) throws Exception { // 进行转换和处理 return value.toUpperCase(); } }); // 将处理后的数据写入 HDFS 中 transformed.writeAsText(params.getRequired("output"), WriteMode.OVERWRITE); // 执行任务 env.execute("KafkaToHDFS"); } } ``` 在执行上述代码之前,需要先将 Flink 的依赖添加到项目中,并修改示例代码中的相关配置参数,如 Kafka连接地址、topic 名称和 HDFS输出路径等。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值