flume读取json格式的log文件写入hive表,趟坑记录

本文记录了使用Flume从JSON格式的日志文件读取并写入Hive表时遇到的问题及解决方案。主要内容包括:创建Hive桶表,注意Flume默认行长度限制为2048可能导致数据截取,测试时清除历史数据,以及Flume配置中调整deserializer.maxLineLength参数防止日志行被截断导致的JSON解析异常。
摘要由CSDN通过智能技术生成

flume 读取log日志文件,写hive表

注意:

hive创建桶表

flume读取文件,按行读取,默认行最大值为2048个长度,过长会截取。

测试阶段,注意删除写入文件目录(spoolDir)、checkpoint目录、写入的hive表记录,避免历史数据对结果的影响;

 

 

如果不是桶表:异常报错如下

Unexpected end-of-input in VALUE_STRING

 

由于要处理的log日志每条记录是以json形式存储,然后Agent.sink.hive.serializer = JSON 解析json,写入hive表。最开始找到的报错信息是

json解析异常:

[DEBUG - org.apache.hive.hcatalog.data.JsonSerDe.deserialize(JsonSerDe.java:178)] 
org.codehaus.jackson.JsonParseException: 

Unrecognized token 'nWsj1W3Zzy': was expecting 'nu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值