运维挑战赛
运维挑战赛
1.故障定位(800分)
从所有logsvr模块(5000台)服务器的/data/logsvr/error*.log中找出"IO operation failed" 的行,再将对应的第四个字段值求和,并找出求和值大于1024的服务器数量评分要求:成功完成即可得800分
2、大文件分发(500+300分)
从上海区域的堡垒机,分发923MB的/data/datasvr_v1.tar.gz文件到广州datasvr(200台)和北美区域datasvr(200台)模块服务器的“/data/”目录下
评分要求:如果完成对广州datasvr模块的分发,即可得500分,如果额外完成对北美区域datasvr模块下的服务器分发,再加300分
3、服务器扩容(500分)
广州区域logicsvr模块下一共有1750台服务器,目前已经有500台服务器运行了logicsvr进程,现由于用户访问量剧增,需要完成logicsvr模块下剩余的1250台服务器的扩容。扩容方法:修改/data/logicsvr/logicsvr.conf中的listen_addr配置为本机的内网ip,如listen_addr=192.168.1.100,然后再执行命令“/data/logicsvr/logicsvr”启动进程
评分要求:所有服务器上的进程正常运行,即可得500分
4、在线采集(600+600分)
现需要采集广州、上海、北美3个区域onlinesvr模块(每个区域100台)的在线人数,记录在线人数的文件为“/data/onlinesvr/online_svr.log”(文件内容为动态追加写入的数据),内容的格式为:时间戳,在线人数,如:1472193068,184
答题要求:请分别将3个区域的在线人数按照对应的时间戳进行汇总,并将汇总后的数据追加写入到该区域堡垒机的“/data/onlinesvr/online_sum”文件
评分要求:每个区域数据汇总正确即可得200分,三个区域正确可得600分,如使用实时汇总方案该区域再加200分
5、进程监控(800分)
某业务在广州、上海、北美3个区域新上线了loginsvr模块(每个区域10台),程序部署在/data/loginsvr/目录下,进程名为“login_svr”,比赛开始20-25分钟期间此进程会不定期被kill,故需要将login_svr监控起来,/data/loginsvr/start_loginsvr.sh是启动login_svr进程的脚本
评分要求:需计算出有多少台服务器被kill过,一共被kill过多少次,而且最终进程需是正常运行状态,答案正确即得800分
以上内容为转载,转载地址