收到问题时需要确认的问题
哪个局点
- 识别局点重要性
- 使用哪些业务
- 开启的特性
- 数据量大小
哪个版本
- 找到我们产品的版本
- 以及上游组件/底座版本
谁找来的
- 一线同事。一线直接面对客户,压力会比较大,需要严肃对待。
- 下游业务同事。压力相对会较小。
最近做过什么操作
- 变更配置。比如开启了某个特性。比如一线/业务为降本增效修改并发度等配置。
- 扩缩容。上游服务进行了扩缩容操作,一线操作不完全导致的问题。
- 升级。我们的产品升级,下游业务升级,上游组件升级。
发现问题时间
- 保存日志。
- 询问相关时间段有没有人做过什么。
是否有做过规避操作
- 环境上代码可能和本地该版本代码不一致。
提问的人的诉求和态度
- 紧急程度。需要沟通来衡量判断,问的话肯定是都说着急。
- 目前是否正常。不正常需要采集好相应日志,留存配置截图后。第一时间恢复。
- 是否需要补数据。有些问题可能会使计算任务失败,影响下游业务继续计算。对客户来说数据的安全性是最重要的,不能丢数据,不能影响下游业务计算。
- 是否需要定位根因。有些小问题可以不用定位根因,恢复即可。
答复时需要注意的点
未完待续…