三、开放(2×20分)
1. 作 为系统管理员,当你有数百台机器的集群需要管理:包括定时查询机器数量,定时检查机器的状态,向所有机器分发你定制的配置文件,升级所有机器的软件,你会怎么样让这些工作变得简单?注意集群中的机器会经常新增删减。请设计一个系统并分别从易用性、安全性、自动化的角度考虑,同时注意这个系统本身不要存在单点。
2. 在Linux下,如何分析一个程序达到性能瓶颈的原因,请分别从CPU、内存、IO、网络的角度判断是谁导致的瓶颈?注意现在的机器CPU是多核。
1Answer:
集群中选举出一个中心管理服务器和一个备用的,通过管理服务器来管理集群。新增时注册,连接时发心跳,没心跳就挂了。管理集群时首先获得中心管理服务器的地址,中心失去连接就用备用的或者重新选举。配置文件可以只存于主备,也可都存储吧。
http://blog.chinaunix.net/u3/94683/showart_1955952.html
1.要有两台monitor机器,并且两台机器做到HA机制,当一台挂掉后,另一台可以马上接替其工作。
2.这两台monitor机器可以无密码ssh到这个集群的任意一台机器上,其它机器则不能无密码进行SSH。
3.将这个集群的IP记录到monitor机器的一个文件中。 每次增删时,修改这个文件。
4.当有要求集群的设置要全部更改时,可以编写脚本去执行。定期执行的动作可以放到cron里。
1.在monitor机器要有脚本去监视集群中的每台机器的状态。
2.脚本要有如下功能
监控负载情况,当达到预设值时,会立刻报警。
2Answer: