Flume采集数据到HDFS时,生成的文件中,开头信息有乱码

原创 2015年11月20日 17:39:40


Flume版本为Flume-ng 1.5,配置文件如下。在生成的HDFS文件中,总是有“
SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritable??H謺NSA???y”信息,
配置文件如下,
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1


# Describe/configure the source
a1.sources.r1.type = spooldir
a1.sources.r1.fileHeader = true
#a1.sources.r1.deserializer.outputCharset=UTF-8
a1.sources.r1.spoolDir = /opt/personal/file/access
a1.sources.r1.channels = c1 




# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = hdfs://node143:9000/access/events
a1.sinks.k1.hdfs.filePrefix = access
a1.sinks.k1.hdfs.fileSuffix=.log
#a1.sinks.k1.hdfs.hdfs.writeFormat= Text
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute


# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000
a1.channels.c1.transactionCapacity = 1000


# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1


翻看Flume文档,发现,HdfsEventSink中,hdfs.fileType默认为SequenceFile,将其改为DataStream就可以按照采集的文件原样输入到hdfs,加一行a1.sinks.k1.hdfs.fileType=DataStream

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

记录Flume使用KafkaSource的时候Channel队列满了之后发生的怪异问题

Flume的这个问题纠结了2个月,因为之前实在太忙了,没有时间来研究这个问题产生的原理,今天终于研究出来了,找出了这个问题所在。 先来描述一下这个问题的现象: Flume的Source用的是Kaf...

Flume采集数据到HDFS时,文件中有乱码

参数 hdfs.fileType     默认值 SequenceFile     参数描述 File format: currently SequenceFil...

【Apache Flume系列】Flume-ng案例分享及source编码格式问题

流式分析案例场景分析;以及相关的编码处理

windows下flume配置与遇到的问题

最近学习大数据,听到数据采集需要flume这一个东西。于是开始捣鼓环境,可能是linux上没有hadoop环境没成功。后来尝试了在windows环境下使用flume,虽然其中遇到种种问题,但总算解决了...

Flume NG 学习笔记(五)Sinks和Channel配置

一、HDFS Sink Flume Sink是将事件写入到Hadoop分布式文件系统(HDFS)中。主要是Flume在Hadoop环境中的应用,即Flume采集数据输出到HDFS,适用大数据日志场景...

上传到HDFS上的文件遇到乱码问题

今天写了一个小MapReduce的程序,跑在集群上一切正常,但是当我查看运行结果时却发现了bug,结果中的中文文字竟然是乱码;我就开始了我的找错之路。。。。 首先看看HDFS上我要用的文件本身内容有没...

利用Flume将MySQL表数据准实时抽取到HDFS

http://blog.csdn.net/wzy0623/article/details/73650053 一、为什么要用到Flume         在以前搭建HAWQ数据仓库实验环境时,我...

基于flume-ng抓取mysql数据到kafka

flume是一个日志收集器,更多详细的介绍可以参照官网:http://flume.apache.org/   在apache flume的官网上没有找到sql数据源数据抓取的source, 可以...

利用Flume将MySQL表数据准实时抽取到HDFS

一、为什么要用到Flume        在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置...
  • wzy0623
  • wzy0623
  • 2017年06月23日 17:25
  • 4025

Flume 读取实时更新的日志文件

1. 日志文件每天roate一个新文件  a)  方案一 There is no way the tail command itself can automatically switch to t...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Flume采集数据到HDFS时,生成的文件中,开头信息有乱码
举报原因:
原因补充:

(最多只允许输入30个字)