一次惨痛的搬砖总结--线上管理服务器迁移

最新推荐文章于 2024-08-09 00:05:38 发布

weixin_33861800

最新推荐文章于 2024-08-09 00:05:38 发布

阅读量160

点赞数

文章标签：运维操作系统

原文链接：http://blog.51cto.com/s8576/1746409

版权

为什么有这次迁移，主要是因为年前针对nagios的扩展做了很多研究测试，希望应用到生产环境中去，但是生产环境的nagios所在服务器是个集中的管理服务器，上面运行了很多开源软件，而且大部分都是前人安装部署，结构已经固化，坑太多已经无法扩展;其次管理服务器操作系统版本为Centos5.4，老实说现在很多软件在6x的系统上安装起来比较方便，默认环境基本都能满足各种开源软件的运行，而且线下测试都是在6.5的系统上测试的。最后是因为管理服务器太老了，害怕哪一天Down了，虽然配置文件每天都有备份，但是软件一个个安装起来还是比较头疼的。所以最后决定将管理服务器上的所有服务全部迁移到虚拟机上，这样在软件安装完毕之后备份虚拟机就可以解决服务器Down后的恢复问题。

为什么说这次迁移是惨痛的呢，因为本人花了一个星期在新的虚拟机上安装各种程序，迁移各种配置、脚本，解决安装过程中的各种问题（虽然很多程序在本地已经安装测试过，但是线上还是碰到很多之前没有遇到的问题），同时还要修改所有服务器的相关配置，每天弄的昏天暗地，头疼眼花的，心情烦躁。

首先说说迁移过程中都遇到了那些比较头疼的问题。

1.nagios采用NRPE去监控每个服务器，但是NRPE有个比较变态的配置allowed_hosts，就是允许哪个IP来访问它，之前所有服务器都是配置的老的管理服务器的IP，而且本人研究了好久发现它无法配置IP段。好了，新的管理服务器是另外一个IP，那么死人了，所有服务器的NRPE这个参数都要增加新IP，线上有30台左右的物理机，N台虚拟机，全部来一遍二个小时没有了。

2.本人有点轻微的强迫症，对界面美观有比较高的要求，nagios4x的版本界面很好看，所以在线上新的服务器上就安装了Nagios4x的版本，结果与之配套使用的pnp4nagios和ndoutils都无法工作（线下测试使用的是nagios3x的版本）。然后为了解决这二个问题浪费了一天的时间。ndoutils这个最坑爹，直接从笔记上复制的配置，导致ndoutils一直无法正常运行，然后各种百度、google，看官方文档，最后从别人的文档上复制了下同样的配置奇迹般的正常了。后来发现是笔记软件有缺陷，很多纪录的命令直接复制出来都无法正常使用的。

3.运维管理平台（我们自己写的管理平台），里面有很多迁移脚本，迁移到新服务器上之后要测试，结果因为之前写的各种不规范（我自己的开发水准那叫一个渣渣，能跑就可以），改啊，测试啊，再改，头都大了。

4.jenkins。前任部署使用的root用户，迁移之后为了规范使用了普通用户，结果可想而知，也是各种改，各种测试。

5.管理平台上还有二个服务：ntpd和nfs，好了，迁移过来之后那就跟NRPE一样，所有服务器全部来一遍。

6.调试阶段：在头疼脑列几天之后，所有程序、配置都迁移完毕了，启动测试，发现各种丢啊，这里忘记迁移了一个脚本，那里忘记迁移了一个配置，这里忘记安装了一个rpm包，手忙脚乱

针对这些问题，总结了几点：

1.迁移之前的准备太粗糙，只是简单的调研了下老服务器上运行的程序，没有纪录文档，没有仔细整理，没有扩展思维，很多和主程序相关的小东西都是在调试的时候发现缺失了才想起来。

2.没有批量管理工具，只要是动到公共配置，那么好了所有服务器来一遍，太伤人。自动化运维管理工具学了几样，后面对比下准备在生产环境上部署一个。

3.规范，以前的坑就不说了，后面所有的操作要规范，这样迁移就不会那么的痛苦。

转载于:https://blog.51cto.com/s8576/1746409

weixin_33861800

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一次惨痛的搬砖总结--线上管理服务器迁移

为什么有这次迁移，主要是因为年前针对nagios的扩展做了很多研究测试，希望应用到生产环境中去，但是生产环境的nagios所在服务器是个集中的管理服务器，上面运行了很多开源软件，而且大部分都是前人安装部署，结构已经固化，坑太多已经无法扩展;其次管理服务器操作系统版本为Centos5.4，老实说现在很多软件在6x的系统上安装起来比较方便，默认环境基本都能满足各种开源软件的运行，...
复制链接

扫一扫