Flume采集数据到HDFS时,生成的文件中,开头信息有乱码

原创 2015年11月20日 17:39:40


Flume版本为Flume-ng 1.5,配置文件如下。在生成的HDFS文件中,总是有“
SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritable??H謺NSA???y”信息,
配置文件如下,
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1


# Describe/configure the source
a1.sources.r1.type = spooldir
a1.sources.r1.fileHeader = true
#a1.sources.r1.deserializer.outputCharset=UTF-8
a1.sources.r1.spoolDir = /opt/personal/file/access
a1.sources.r1.channels = c1 




# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = hdfs://node143:9000/access/events
a1.sinks.k1.hdfs.filePrefix = access
a1.sinks.k1.hdfs.fileSuffix=.log
#a1.sinks.k1.hdfs.hdfs.writeFormat= Text
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute


# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000
a1.channels.c1.transactionCapacity = 1000


# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1


翻看Flume文档,发现,HdfsEventSink中,hdfs.fileType默认为SequenceFile,将其改为DataStream就可以按照采集的文件原样输入到hdfs,加一行a1.sinks.k1.hdfs.fileType=DataStream

版权声明:本文为博主原创文章,未经博主允许不得转载。

hadoop读取hdfs文件中的中文乱码解决办法

FileSystem fs = FileSystem.get(conf); Path file = new Path("hdfs://localhost:9000/wordcount/data/wo...
  • gywtzh0889
  • gywtzh0889
  • 2017年03月15日 20:19
  • 2914

Flume采集数据到HDFS时,文件中有乱码

参数 hdfs.fileType     默认值 SequenceFile     参数描述 File format: currently SequenceFil...
  • u011478909
  • u011478909
  • 2016年08月09日 16:24
  • 1635

flume高并发优化——(11)排除json转换及中文乱码

在使用flume收集数据,转换为json格式时,常常遇到特殊符号的问题,而json对于”引号,是非常敏感的,大家处理json数据的时候,要特别注意,在前不久,向es插入数据时,报错就是json转换失败...
  • xvshu
  • xvshu
  • 2016年08月19日 18:31
  • 2970

Flume的使用问题及解决方案

在使用flume-ng时,踩了很多坑,现在来说一下,希望大家绕过坑,到达熟练使用flume的目的 第一坑:不能正确解码文件,造成不能正确的重命名文件,抛出bug后,之后所有文件都不可以被flume收...
  • silentwolfyh
  • silentwolfyh
  • 2016年04月17日 08:20
  • 1340

上传到HDFS上的文件遇到乱码问题

今天写了一个小MapReduce的程序,跑在集群上一切正常,但是当我查看运行结果时却发现了bug,结果中的中文文字竟然是乱码;我就开始了我的找错之路。。。。 首先看看HDFS上我要用的文件本身内容有没...
  • AnneQiQi
  • AnneQiQi
  • 2016年06月30日 15:45
  • 4821

Flume 各种坑

1. 背景 最近一段时间在做安全大数据分析环境搭建以及初步的数据采集、录入工作,这个过程中用到了 Hadoop+HBase+Flume+Kafka这套大数据分析的工具。在数据分析环境架构中,Fl...
  • qiaqia609
  • qiaqia609
  • 2018年01月04日 17:22
  • 1776

flume高并发优化——(10)消灭elasticsearch sink多次插入

在flume作为通道接收json数据时,最近遇到一个问题,当flume-es-sink遭遇一个错误的时候,会不断尝试插入数据,而以前的数据又没有进行回滚,导致数据重复插入,脏数据累积,为了解决这个问题...
  • xvshu
  • xvshu
  • 2016年08月19日 18:14
  • 2879

Flume 1.6 遇Emoji表情发生截断丢失数据问题分析

问题描述最近有一段时间,跑ETL的时候,发现出来的数据明显比之前少,少了大约一半左右,就开始排查。 我们的数据是从Flume采集过来的,排查日志发现,flume在读取到某一条的时候,就不再往下读取了...
  • Lnho2015
  • Lnho2015
  • 2017年02月04日 07:19
  • 1081

hdfs文件乱码问题

以前没怎么重视博客,zuo'wei
  • cb5816303
  • cb5816303
  • 2014年10月31日 20:04
  • 2219

Flume数据采集各种配置详解

Flume简介 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flu...
  • qq_26418435
  • qq_26418435
  • 2016年06月07日 16:01
  • 5857
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Flume采集数据到HDFS时,生成的文件中,开头信息有乱码
举报原因:
原因补充:

(最多只允许输入30个字)