Fluentd：用Hadoop收集数据(HDFS)

最新推荐文章于 2023-03-28 15:51:54 发布

RunningShare

最新推荐文章于 2023-03-28 15:51:54 发布

阅读量394

点赞数 1

分类专栏：大数据文章标签： Fluentd 大数据 hadoop

原文链接：https://docs.fluentd.org/how-to-guides/http-to-hdfs

版权

大数据专栏收录该内容

67 篇文章 1 订阅

订阅专栏

用Hadoop收集数据(HDFS)

本文解释了如何使用Fluentd的WebHDFS输出插件将半结构化日志聚合到Hadoop HDFS中。

背景

Fluent是一个高级的开源日志收集器，最初是由Treasure Data公司开发的。Fluent是专门为解决大数据日志收集问题而设计的。许多用户正在使用Fluentd和MongoDB，并发现它目前无法很好地扩展。 HDFS (Hadoop)是存储和处理大量数据的自然选择。除了Java库之外，它还支持一个名为WebHDFS的HTTP接口。本文将向您展示如何使用Fluentd从HTTP接收数据并将其流式传输到HDFS。

架构

下图展示了高层架构：

安装

为简单起见，本文将描述如何设置单节点配置。请在同一节点上安装以下软件:

Fluentd
webhdfs输出插件 (out_webhdfs)
Apache HDFS

WebHDFS 插件包含在Fluentd的deb/rpm包的最新版本(1.1.10或更高版本)中。如果你想用RubyGems安装插件，请用

gem install fluent-plugin-webhdfs

Debian包
RPM包
关于CDH，请参考下载页面
Ruby gem。

Fluentd配置

让我们开始配置Fluentd。如果您使用deb/rpm包，Fluentd的配置文件位于

/etc/td-agent/td-agent.conf

否则，配置文件位于：

/etc/fluentd/fluentd.conf

HTTP输入

对于输入源，我们将设置Fluentd接受来自HTTP的记录。Fluentd配置文件应该如下所示:

<source>
  @type http
  port 8888
</source>

WebHDFS输出

输出目的地将是WebHDFS。输出配置应该如下所示:

<match hdfs.*.*>
  @type webhdfs
  host namenode.your.cluster.local
  port 50070
  path "/log/%Y%m%d_%H/access.log.#{Socket.gethostname}"
  <buffer>
    flush_interval 10s
  </buffer>
</match>

<match>部分指定了用于查找匹配标签的正则表达式。如果日志中的标签匹配，则使用相应的匹配配置(即相应地路由日志)。

flush_interval参数指定数据写入HDFS的频率。追加操作用于将传入数据追加到path参数指定的文件中。时间和主机名的占位符可以与path参数一起使用。这可以防止多个Fluentd实例将数据追加到同一个文件中，而追加操作必须避免这种情况。

其他选项指定HDFS的NameNode 的主机和端口。

HDFS配置

默认情况下不启用追加操作。请将这些配置放入您的hdfs-site.xml文件，然后重新启动整个群集:

<property>
  <name>dfs.webhdfs.enabled</name>
  <value>true</value>
</property>

<property>
  <name>dfs.support.append</name>
  <value>true</value>
</property>

<property>
  <name>dfs.support.broken.append</name>
  <value>true</value>
</property>

请确认HDFS用户对指定为网络文件系统输出的路径具有写权限。

测试

为了测试配置，只需将JSON发布到Fluentd(我们在这个例子中使用了curl命令)。发送USR1信号会将Fluentd的缓冲区刷新到WebHDFS中

$ curl -X POST -d 'json={"action":"login","user":2}' \
  http://localhost:8888/hdfs.access.test
$ kill -USR1 `cat /var/run/td-agent/td-agent.pid`

然后我们可以访问HDFS查看存储的数据:

$ sudo -u hdfs hadoop fs -lsr /log/
drwxr-xr-x   - 1 supergroup          0 2012-10-22 09:40 /log/20121022_14/access.log.dev

总结

与WebHDFS的融合使实时日志收集简单、健壮且可扩展！@tagomoris已经使用这个插件收集了20，000 msgs/sec，1.5 TB/天，几个月来没有出现任何大问题。

扩展学习

RunningShare

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录