Flink自定义Source读取OSS系统中文件

自定义Source读取OSS系统中文件

一、POM依赖引入

<properties>
	<flink.version>1.9.1</flink.version>
    <aliyun.oss.version>2.8.3</aliyun.oss.version>
</properties>
    
<dependencies>
	<dependency>
       	<groupId>com.aliyun.oss</groupId>
        <artifactId>aliyun-sdk-oss</artifactId>
       	<version>${aliyun.oss.version}</version>
    </dependency>

   	<!-- flink -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-streaming-java_2.11</artifactId>
        <version>${flink.version}</version>
    </dependency>
    	
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-connector-kafka_2.11</artifactId>
        <version>${flink.version}</version>
    </dependency>
    	
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-connector-kafka-0.10_2.11</artifactId>
        <version>${flink.version}</version>
    </dependency>

    <dependency>
        <groupId>org.xerial.snappy</groupId>
        <artifactId>snappy-java</artifactId>
        <version>1.1.7.2</version>
        <type>jar</type>
        <scope>compile</scope>
    </dependency>
</dependencies>

二、自定义OSS Source

1.继承 RichParallelSourceFunction

 RichParallelSourceFunction 可以改变source并行度,一般的Source默认并行度是 1 且无法修改

代码示例:

public class OssSource extends RichParallelSourceFunction<String>{}

2.实现方法

open方法示例:

@Override
public void open(Configuration parameters) throws Exception {
        /**
         * 测试用:读取本地配置文件
         */
        Properties prop = PropertiesUtils.loadProp("config.properties");
        endpoint = prop.getProperty("endpoint");
        accessKeyId = prop.getProperty("accessKeyId");
        accessKeySecret = prop.getProperty("accessKeySecret");
        bucketName = prop.getProperty("bucketName");

        /**
         * 根据系统中配置文件读取
         */
        /*ParameterTool prop = PropertiesUtils.createParameterTool();
        endpoint = prop.get("endpoint");
        accessKeyId = prop.get("accessKeyId");
        accessKeySecret = prop.get("accessKeySecret");
        bucketName = prop.get("bucketName");*/

        ossClient = new OSSClient(endpoint,accessKeyId,accessKeySecret);
        super.open(parameters);
    }

run方法示例:

@Override
    public void run(SourceContext<String> ctx) throws Exception {

        ObjectListing objectListing = null;
        String prefix = hour;
        String nextMarker = null;
        do{
            //"sy-online-fdr-v2/2019/11/28"
            objectListing = ossClient.listObjects(new ListObjectsRequest(bucketName).withPrefix("sy-online-fdr-v2/" + ptt_day ).withMarker(nextMarker));

            List<OSSObjectSummary> objectSummaries = objectListing.getObjectSummaries();
            for (OSSObjectSummary objectSummary : objectSummaries) {
                String key = objectSummary.getKey();
                String keyPrefix = key.split("/")[4].split("_")[0];
                if(prefix.equals(keyPrefix)){
                    OSSObject object = ossClient.getObject(bucketName, key);
                    InputStream objectContent = object.getObjectContent();
                    readSnappy(objectContent,ctx);
                }

            }
            //更改每次的列举文件的起点
            nextMarker = objectListing.getNextMarker();
        }while(objectListing.isTruncated());
    }

cancel 和 close方法示例:

@Override
    public void cancel() {
        ossClient.shutdown();
    }

    @Override
    public void close() throws Exception {
        ossClient.shutdown();
    }

3.流式读取Snappy文件

/**
     * 读取Snappy并进行解压
     */
    public static void readSnappy(InputStream input,SourceContext<String> ctx) throws IOException {
        BufferedReader br = new BufferedReader(new InputStreamReader(new SnappyInputStream(input)));
        try {
            while (true) {
                String line = br.readLine();
                if (line == null)
                    break;
                ctx.collect(line);
            }
        } catch (Throwable ex) {
            ex.printStackTrace();
        } finally {
            if (input != null) {
                try {
                    input.close();
                } catch (Exception x) {
                }
            }
        }
    }

读取snappy可以参考 https://github.com/xerial/snappy-java

4.使用自定义Source

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStreamSource<String> inputStream = env.addSource(new OssSource(para,hour)).setParallelism(2);

Flink是一个高性能流式处理引擎,可以读取各种各样的数据源,包括自定义的源。自定义源是使用Flink的一种方式,主要是为了读取一些非标准的数据源或者改善性能表现。 自定义source是一个接口,需要实现org.apache.flink.streaming.api.functions.source.SourceFunction接口。该接口只有两个方法,一个是run(),另一个是cancel()。在run()中实现数据读取的逻辑,cancel()用于取消读取自定义source主要包括数据什么时候开始读取,如何读取数据及什么时候读取结束等。 实现自定义source需要在程序入口处调用StreamExecutionEnvironment对象中的addSource()方法,将自定义source添加到批处理中。示例如下: ```java DataStreamSource<String> dataSource = env.addSource(new MySource()); ``` 其中,MySource自定义的数据源。 在自定义source中,可以采用文件缓存方式来提升读取性能。通过FileChannel打开文件,使用ByteBuffer读取文件,然后将ByteBuffer通过Flink的DataStream传递给后续算子处理。这种方式可以大大提升文件读取的性能,减少文件IO的次数。示例如下: ```java try { FileInputStream inputStream = new FileInputStream(filePath); FileChannel inChannel = inputStream.getChannel(); ByteBuffer buffer = ByteBuffer.allocate(1024 * 1024 * 5); while (inChannel.read(buffer) != -1) { buffer.flip(); sourceContext.collect(buffer); buffer.clear(); } } catch (IOException e) { e.printStackTrace(); } ``` 自定义source的实现需要根据具体的数据源进行,但总体来说,实现自定义源并不复杂,只需要理解Flink数据处理的机制,并编写封装好的代码即可。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值