如何理解安全日志记录和监控故障
当用户反馈某些功能不可用的时候,
当你发现原因是某个接口报错的时候,
当你想查看下某些接口请求日志的时候,
当你想查看各服务器资源占用情况的时候,
然而,
你发现,
没有记录日志,没有系统监控!
是不是很绝望?是不是又是似曾相识的场景?是不是恨自己之前为什么没做日志记录,为什么没有上监控系统?
这就是本文要要讲的关于安全日志记录和监控故障(Security Logging and Monitoring Failures)方面的知识。没有安全日志记录和监控并不会直接导致安全问题的发生,但是日志记录和监控非常重要,它们的缺失或故障会直接影响系统可观测性、故障发现时间和故障排查进度,进而给客户和公司造成更多的损失。因此,拥有日志系统和监控系统来收集日志并在发生故障或错误时及时警报并排查问题是非常重要的。
以下几点没做就需要注意了
没有日志或者日志不全,缺少部分记录。
没有记录关键的操作记录,例如用户登录记录、关键操作记录、审计记录等。
日志记录没有备份。
日志记录意思模糊不清。
本地化存储日志,如果服务器出现故障,日志也将随着消失。
没有监控系统或有监控但没有报警。
监控系统的监控任务设置不正确,不能及时报警或报警信息模糊。
报警阈值设置过低,导致狼来的故事重演。
日志系统和监控系统访问控制没做好。
改进措施
上线完善的日志系统。
确保记录所有关键操作记录。
日志记录做好备份。
确保日志是全量的,没有数据缺失。
确保日志包含所有相关数据并使用规范的格式。
上线完善的监控系统。
设置好监控任务后,多测试几次确保配置无误。
确保报警阈值和报警信息设置恰当精准。
确保日志系统和监控系统的安全性,做好访问控制。