1.前言
离线任务在运行完成后任务的详细记录同步到Timeline Server中用于长时间存储,当访问Timeline Server UI时发现记录的应用任务名称、任务类型、队列等为null导致我们无法进行任务治理、性能分析等工作。
2.分析
【1】访问UI出现为null的现象怀疑是底层Leveldb数据损坏导致。
【2】编写代码读取底层的Leveldb数据验证是否数据损坏
public class LevelDBTest {
public static void main(String []args) throws IOException {
JniDBFactory factory = new JniDBFactory();
DB db = factory.open(new File("../timeline/leveldb-timeline-store/entity-ldb.2024-06-07-06"),new Options());
DBIterator dbIterator = db.iterator();
dbIterator.seekToFirst();
while (dbIterator.hasNext()) {
Map.Entry<byte[], byte[]> entry = dbIterator.next();
if(new String(entry.getKey()).contains("60799")){
System.out.println(new String(entry.getKey()));
System.out.println(new String(entry.getValue()));
break;
}
}
dbIterator.close();
db.close();
}
}
【3】结果输出后发现底层存储没有相关的字段记录所以存储没有问题。【4】查看Timeline Server日志确定任务在上报指标的时Token认证导致。
【5】查看Timeline Server日志默认的Token认证为FileSignerSecretProvider,由于/home/yarn/hadoop-http-auth-signature-secret文件不存在,所有使用了RandomSignerSecretProvider随机Token认证,但是在进行AuthenticationFilterInitializer初始化的时候,同时加载了RMAuthenticationFilterInitializer与TimelineAuthenticationFilterInitializer导致Random Signer Secret会重突。
【6】我们可以手动创建/home/yarn/hadoop-http-auth-signature-secret文件随意写入123456重启集群或者修改core-site.xml配置中的hadoop.http.filter.initializers把RMAuthenticationFilterInitializer删除掉即可恢复正常。
3.总结
有时候通过日志、源码并不能很快的定位的问题原因,我们可以通过配置远程DEBUG的方式进行代码调试来定位原因,如担心影响生产环境上的任务可以在测试环境进行。