flume 读取log日志文件,写hive表
注意:
hive创建桶表;
flume读取文件,按行读取,默认行最大值为2048个长度,过长会截取。
测试阶段,注意删除写入文件目录(spoolDir)、checkpoint目录、写入的hive表记录,避免历史数据对结果的影响;
如果不是桶表:异常报错如下
Unexpected end-of-input in VALUE_STRING
由于要处理的log日志每条记录是以json形式存储,然后Agent.sink.hive.serializer = JSON 解析json,写入hive表。最开始找到的报错信息是
json解析异常:
[DEBUG - org.apache.hive.hcatalog.data.JsonSerDe.deserialize(JsonSerDe.java:178)]
org.codehaus.jackson.JsonParseException:Unrecognized token 'nWsj1W3Zzy': was expecting 'nu