Hive读取Flume正在写入的HDFS临时文件所遇到的问题

最新推荐文章于 2023-12-05 15:30:00 发布

wangqiaoshi

最新推荐文章于 2023-12-05 15:30:00 发布

阅读量1.7k

点赞数

分类专栏： hadoop 文章标签： hive hadoop flume hadoop文件读写

hadoop 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

from http://www.sqlparty.com/hive%E8%AF%BB%E5%8F%96flume%E6%AD%A3%E5%9C%A8%E5%86%99%E5%85%A5%E7%9A%84hdfs%E4%B8%B4%E6%97%B6%E6%96%87%E4%BB%B6%E6%89%80%E9%81%87%E5%88%B0%E7%9A%84%E9%97%AE%E9%A2%98/

实际工作遇到如下场景：应用服务器收集到的日志信息，通过Flume写入到HDFS指定目录，而Hive将其映射到表，进行离线统计。

计划

计划方式处理：

Hive的表创建为外部分区表，例如：

USE mydb;
CREATE EXTERNAL TABLE mytable
(
c1 String,
c2 INT,
c3 INT,
create_time String
)
PARTITIONED BY (dt STRING);

然后创建分区，如：

ALTER TABLE mytable ADD PARTITION (dt = ’2013-09-25′) LOCATION ‘/data/mytable/2013-09-25/’;
ALTER TABLE mytable ADD PARTITION (dt = ’2013-09-26′) LOCATION ‘/data/mytable/2013-09-26/’;
ALTER TABLE mytable ADD PARTITION (dt = ’2013-09-27′) LOCATION ‘/data/mytable/2013-09-27/’;

即Hive的表按天进行分区。指定到相应目录。

而Flume中配置将数据保存到HDFS中,即HDFS sink。计划每天一个文件，进行日切。如2013-09-25对应的文件就保存在：

hdfs://<hive.metastore.warehouse.dir>/data/mytable/2013-09-25/FlumeData.xxx

这样，只要文件生成，就能直接通过操作Hive的mytable表来对文件进行统计了。

业务上要求统计工作是按照小时进行，考虑到按照小时进行分区过于细化，而且会导致过多的文件给NameNode造成内存压力，所以如上Hive层面按天进行划分。

统计执行时首先指定天分区，然后根据create_time（mm:hh:ss）指定统计时间段，如：

SELECT c1,
            SUM(c2),
            SUM(c3)
FROM mytable
WHERE dt = ’2013-09-25′
     AND create_time BETWEEN ’22:00:00′ AND ’22:59:59′
GROUP BY c1
;

但是，但是，计划始终赶不到遇到的变化！

在实践的过程中遇到如下两个问题：

1.对于正在写入的文件，通过hadoop fs -ls 命令查看，其大小始终是0，即使通过hadoop fs -cat可以看到实际已经有内容存在！通过hive处理的话也看不到其中的数据。

2.Flume正在写入的文件，默认会有.tmp后缀。如果Hive在执行过程中，Flume切换文件，即将xxx.tmp重命名为xxx，这时Hive会报错如file not found xxx.tmp。

了解一番后大致知道了缘由，记录如下：

针对问题1

首先了解HDFS的特点：

HDFS中所有文件都是由块BLOCK组成，默认块大小为64MB。在我们的测试中由于数据量小，始终在写入文件的第一个BLOCK。而HDFS与一般的POSIX要求的文件系统不太一样，其文件数据的可见性是这样的：

如果创建了文件，这个文件可以立即可见；
写入文件的数据则不被保证可见了，哪怕是执行了刷新操作(flush/sync)。只有数据量大于1个BLOCK时，第一个BLOCK的数据才会被看到，后续的BLOCK也同样的特性。正在写入的BLOCK始终不会被其他用户看到！
HDFS中的sync()保证数据持久化到了datanode上，然后可以被其他用户看到。

针对HDFS的特点，可以解释问题1中的现象，正在写入无法查看。但是使用Hive统计时Flume还在写入那个BLOCK(数据量小的时候)，那岂不是统计不到信息？

解决方案：

每天再按小时切分文件——这样虽然每天文件较多，但是能够保证统计时数据可见！Flume上的配置项为hdfs.rollInterval。

如果文件数多，那么还可以考虑对以前的每天的小时文件合并为每天一个文件！

针对问题2

原因比较明显，Hive处理前获取了对应分区下的所有文件信息，其中包含xxx.tmp文件，而传递给MapReduce处理时，由于Flume进行了切换，导致原来的xxx.tmp变成了xxx，新的.tmp名称又变成了yyy.tmp，这样自然找不到xxx.tmp了。

解决方案：

解决这个问题想法之一是想控制Hive的处理时机，但是显然不是那么好控制。

进一步了解到HDFS的Java API读取HDFS文件时，会忽略以”.”和”_”开头的文件！类似于Linux中默认.xx是隐藏的一样，应用程序读取HDFS文件时默认也不读取.xxx和_xxx这样名称的文件！

这样就产生了针对问题2的处理方案一）配置Flume，针对正在写入的文件，以.号开头。涉及Flume配置项hdfs.inUsePrefix。

也有网友给出了处理方案二）:让应用程序也看不到.tmp结尾的文件！方法是继承PathFilter自定义自己的文件筛选类，然后在Hive中设置使用这个类。具体如下（转自此文）

package com.twitter.util;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.PathFilter;

public class FileFilterExcludeTmpFiles implements PathFilter {
    public boolean accept(Path p) {
        String name = p.getName();
        return !name.startsWith(“_”) && !name.startsWith(“.”) && !name.endsWith(“.tmp”);
    }
}

然后在hive-site.xml中加入：

<property>
    <name>hive.aux.jars.path</name>
    <value>file:///usr/lib/hadoop/hive-serdes-1.0-SNAPSHOT.jar,file:///usr/lib/hadoop/TwitterUtil.jar</value>
</property>
<property>
    <name>mapred.input.pathFilter.class</name>
    <value>com.twitter.util.FileFilterExcludeTmpFiles</value>
</property>

Done!

参考：
http://grokbase.com/t/cloudera/cdh-user/12b9htpqyw/flume-hive-realtime-problem-with-temporary-files
http://flume.apache.org/FlumeUserGuide.html#hdfs-sink
《Hadoop权威指南》