flink-streaming消费kafka动态分区写入HDFS(SequenceFile)文件

         

 

        主要记录下streaming模式下动态分区怎么写文件,sql模式直接写就是了,streaming模式需要自己写下分区方法。大致的数据流程是消费kafka,拆解json,数据写到hdfs(sequenceFile)路径。

1、分区需要自定义,这里是读取流数据,获取分区字段

package partitionassigner;

import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.core.io.SimpleVersionedSerializer;
import org.apache.flink.streaming.api.functions.sink.filesystem.BucketAssigner;
import org.apache.flink.streaming.api.functions.sink.filesystem.bucketassigners.SimpleVersionedStringSerializer;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;

import java.text.SimpleDateFormat;
import java.util.Date;

public class PartitionAssigner<IN> implements BucketAssigner<Tuple2<LongWritable, Text>, String> {

    @Override
    public String getBucketId(Tuple2<LongWritable, Text> textTuple2, Context context) {
        String allCol = textTuple2.getField(1).toString();
        //截出来分区字段
        String[] strings = allCol.split("\\^");
        //取出来时间戳字段
        Long createTime = Long.parseLong(strings[10]);
        //取出来rank分区字段
        int rankPt =  Integer.parseInt(strings[11]);
        //时间戳 -> yyyyMMdd
        Date date = new Date(createTime);
        SimpleDateFormat simpleDateFormat = new SimpleDateFormat ("yyyyMMdd");
        return "day=" + simpleDateFormat.format(date) + "/" + "rank_pt=" + rankPt;
    }

    @Override
    public SimpleVersionedSerializer<String> getSerializer() {
        return SimpleVersionedStringSerializer.INSTANCE;
    }


}

2、文件输出调用分区生成方法

        StreamingFileSink<Tuple2<LongWritable, Text>> sink = StreamingFileSink.forBulkFormat(
                        path,
                        new SequenceFileWriterFactory<>(hadoopConf, LongWritable.class, Text.class,"org.apache.hadoop.io.compress.GzipCodec",
                                SequenceFile.CompressionType.BLOCK))
                .withBucketAssigner(new PartitionAssigner())
                .build();

3、我的路径写的本地,可以看到文件夹,生产上改下文件路径就好

4、sequencefile列分隔符的问题

我是在toString这一步用 ^ 作为分隔符,然后hive建表的时候再用这个作为分隔符,这个文件格式在用impala查询的时候会有格式问题,个人觉得整体来说不如parquet稳定,细节问题可以少很多。

5、小文件问题

sink的线程太少数据就写的慢,文件会比较大,避免了小文件问题。

同样checkpoint时间短也会写的快,数据量小的话也会有小文件问题。不过我处理流量数据对这个问题感知还好,本身数据量大,一天几个t,只有夜里的时候文件会小一点。

总结:这个处理是想在流上把数据处理好写到离线数仓的dwd层,省去离线的处理逻辑,流批真正一体要做的工作还是比较多啊,维护成本当下看也高。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值