基于flume框架的ORCSink开发中遇到的坑（一）

最新推荐文章于 2023-09-07 14:49:45 发布

lilyjoke

最新推荐文章于 2023-09-07 14:49:45 发布

阅读量1.9k

点赞数 1

分类专栏：大数据文章标签： orc flume

本文链接：https://blog.csdn.net/lilyjoke/article/details/81335913

版权

本文介绍了在开发Flume 1.7的ORCSink时遇到的挑战，包括线程池管理HDFS操作和ORC文件写入实现。作者指出，Flume的事务机制与ORC文件的批量写入策略存在冲突，可能导致数据丢失。为解决这个问题，调整了批次最大记录数，但寻求更佳解决方案。

摘要由CSDN通过智能技术生成

最近做了一个基于flume 1.7 的sink，用于写hdfs orc文件，中间遇到了几个坑，下面把思路和遇到的问题一一记录下来。

1. 开发思路

首先的实现场景是这样的：从channel拿数据-->sink拿到数据后做分类-->分类后将数据写入对应的orc文件->文件关闭。技术要点是这样：

1.1 线程池管理hdfs操作

在分类写orc文件这环节，我开了两个线程池，一个用来管理每类文件的hdfs操作，创建/写入/关闭hdfs上的orc文件；一个用来管理文件的滚动，在某一个时机，例如文件写入条数到达某个上限或者文件闲置到达一定时间，将当前文件关闭并创造新文件。

这个是hdfs操作线程池的代码逻辑：

//创建一个线程池，线程执行对象
callTimeoutPool = Executors.newFixedThreadPool(threadsPoolSize,
            new ThreadFactoryBuilder().setNameFormat(timeoutName).build());

//callTimeoutPool执行线程任务，任务继承于callable，执行后返回Future对象
private <T> T callWithTimeout(final CallRunner<T> callRunner)
      throws IOException, InterruptedException {
    Future<T> future = callTimeoutPool.submit(new Callable<T>() {
      ...
    } 
}

//任务内

最低0.47元/天解锁文章

lilyjoke

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
基于flume框架的ORCSink开发中遇到的坑（一）

最近做了一个基于flume 1.7 的sink，用于写hdfs orc文件，中间遇到了几个坑，下面把思路和遇到的问题一一记录下来。1. 开发思路首先的实现场景是这样的：从channel拿数据--&gt;sink拿到数据后做分类--&gt;分类后将数据写入对应的orc文件-&gt;文件关闭。技术要点是这样：1.1 线程池管理hdfs操作在分类写orc文件这环节，我开了两个线程池，一...
复制链接

扫一扫

专栏目录