13、分布式系统诊断技术:问题解决与相关方法探究

分布式系统诊断技术:问题解决与相关方法探究

1. 作业二次运行问题诊断

在 Condor 环境中,存在一个作业二次运行的问题。shadow 守护进程有间歇性的 bug,可能在报告作业成功完成后崩溃,导致 schedd 守护进程重启 shadow 并再次运行作业。这不仅会使基于 Condor 的高级工作流管理组件中止,还会让终端用户感到困惑。

为了在测试环境中模拟这个难以复现的问题,在 Condor 源代码中插入了一个可控的间歇性故障。若故障发生,shadow 守护进程在日志中写入作业完成条目后终止执行;若未发生,shadow 则成功完成。

接下来提交了一个包含五个相同作业的集群到 Condor,获取从 condor submit 开始的系统级跟踪信息,并将跟踪信息分离成流。
- 无参考跟踪的情况 :图 6a 展示了在没有先验参考跟踪的情况下,为所有流的复合配置文件计算的可疑分数。流 1 和 5 的分数高于其他流,但详细检查发现这些差异对应于集群中第一个和最后一个作业的正常活动变化,无法定位真正的异常。
- 有正常跟踪参考的情况 :图 6b 展示了使用已知正确的跟踪作为参考计算的所有流的可疑分数。流 1 和 5 的可疑分数较低,因为在正常运行中存在类似的流;而流 3 表现出异常行为,在之前的正常执行中未被观察到。通过检查 Condor 作业完成日志记录,确认流 3 对应于被运行两次的作业。

为了确定问题的根本原因,分析了异常运行中的流 3 和已知正常的先前运行中的流 3 在调用路径覆盖上的差异。最初有 964 条仅存在于异常流或正常流中的路径,应用过滤技术后,将需要检

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值