大概去年Q4的时候,写了一个脚本用来监控每台虚拟化宿主机上的虚拟机数量,包括总数量、运行状态的数量,非运行状态的数量。 当时的主要初衷是有团队成员创建虚拟机的时候,同组内的同学可以及时收到zabbix通知级别的告警,本来只是写着玩,在管理方面也许能起到辅助作用。
没想到这个通知级别的告警这次竟起到了大的作用。
问题发现
4月28日 19:11分,组内一名同学注意到了1条通知级别告警,内容是"一台虚拟化宿主机上的虚拟机数量突然变成0了"。
但是并没有服务或者服务器down的告警。
于是该同学打算登陆服务器一探究竟。结果却发现服务器不能使用域管理员远程登陆了,提示该服务器和域之间失去信任关系。本地管理员登陆则提示"远程计算机需要网络级别身份验证,而您的计算机不支持该验证。"
那只能通过远控卡登陆查看下原因了,结果发现该机器是一台因为远控卡坏掉没法使用的。也因此,该服务器上没有运行生产环境,都是测试用的demo环境。
折腾一番后,最终也没能修复远程连接的问题。后来我也尝试连接了下,未果。只能去现场了。
原因分析
通常,一台加了域的计算机离开域30-60天的时间,会失去和域的信任关系。为什么离开时间是个范围而不是固定的呢?因为加了域的计算机也有个计算机账号,对应着一个计算机账号密码(区别于用户的密码),这个密码默认30天修改一次,相当于有效期30天,这个密码会分别被存在计算机本地和AD里面。