1.4 Flink HDFS Connector /Flink HDFS连接器

最新推荐文章于 2024-08-12 17:32:39 发布

weixin_33697898

最新推荐文章于 2024-08-12 17:32:39 发布

阅读量349

点赞数

文章标签：大数据

原文链接：http://blog.51cto.com/12819839/1916383

版权

在上一章节已经翻译了Flink Kafka Connector，但由于HDFS作为大多数研究大数据者日常用到的，此章节并添加翻译HDFS的连接器。

此连接器提供了一个Sink，将分区文件写入Hadoop FileSystem支持的任何文件系统。要使用此连接器，请将以下依赖项添加到您的项目中：

<dependency>

<groupId> org.apache.flink </groupId>

<artifactId> flink-connector-filesystem_2.10 </artifactId>

<version> 1.2.0 </version>

</dependency>

请注意，流连接器当前不是二进制分发的一部分。有关如何将程序与程序库打包以进行集群执行的信息，请参阅此处。

折叠文件接收器（Bucketing File Sink）

可以配置压力行为以及写入操作，但我们稍后将会介绍。这是你如何创建一个耐心的病人，默认情况下，它会收敛到按时间分割的滚动文件：

<Java代码>

DataStream <String> input = ...;

input.addSink（new BucketingSink <String>（“/base/path”））;

唯一必需的参数是存储桶的基本路径。可以通过指定自定义bucketer，写入器和批量大小来进一步配置接收器。

默认情况下，当元素到达时，当前的系统时间将会降级，并使用日期时间模式“yyyy-MM-dd-HH”命名这些存储区。此模式将传递给具有当前系统时间的SimpleDateFormat以形成存储桶路径。每当遇到新的日期时，都会创建一个新的桶。例如，如果您有一个包含分钟作为最细粒度的模式，您将每分钟获得一个新的桶。每个桶本身是一个包含几个零件文件的目录：每个并行实例的接收器将创建自己的零件文件，当零件文件变得太大时，槽也将在其他文件旁边创建一个新的零件文件。当桶变得不活动时，打开的零件文件将被刷新并关闭。当最近没有写入时，桶被视为不活动。默认情况下，接收器每分钟检查不活动的桶，并关闭一分钟内未写入的任何桶。可以在BucketingSink上使用setInactiveBucketCheckInterval（）和setInactiveBucketThreshold（）配置此行为。

您也可以使用BucketingSink上的setBucketer（）指定自定义bucketer。如果需要，bucketer可以使用元素或元组的属性来确定bucket目录。

默认的作者是StringWriter。这将调用toString（）对传入的元素，并将它们写入部分文件，用换行符分隔。要在BucketingSink上指定一个自定义的作者，请使用setWriter（）。如果要编写Hadoop SequenceFiles，可以使用提供的SequenceFileWriter，它也可以配置为使用压缩。

最后一个配置选项是批量大小。这指定何时应该关闭零件文件并启动一个新的零件。（默认部分文件大小为384 MB）。

例：

<Java代码>

DataStream <Tuple2 <IntWritable，Text >> input = ...;

sinketingSink <String> sink = new BucketingSink <String>（“/ base / path”）;

sink.setBucketer（new DateTimeBucketer <String>（“yyyy-MM-dd-HHmm”））;

sink.setWriter（new SequenceFileWriter <IntWritable，Text>（））;

sink.setBatchSize（1024 * 1024 * 400）; //这是400 MB，

input.addSink（sink）;

这将创建一个写入到遵循此模式的桶文件的接收器：

/ base / path / {date-time} / part- {parallel-task} - {count}

其中date-time是从日期/时间格式获取的字符串，parallel-task是并行接收器实例的索引，count是由于批量大小而创建的部分文件的运行数。

转载于:https://blog.51cto.com/12819839/1916383

weixin_33697898

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1.4 Flink HDFS Connector /Flink HDFS连接器

在上一章节已经翻译了Flink Kafka Connector，但由于HDFS作为大多数研究大数据者日常用到的，此章节并添加翻译HDFS的连接器。此连接器提供了一个Sink，将分区文件写入Hadoop FileSystem支持的任何文件系统。要使用此连接器，请将以下依赖项添加到您的项目中：<dependency> <groupId> org.apac...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。