浅谈小型开发团队的运维

场景


最近从大公司离职后,现在带领小团队做后端开发,刚起步,手下有几个弟兄(木有运维汪)……紧急的开发1.0版本的业务中……突然一天,运营小妹说客户反映APP端下不了单了,排查之后,是因为线上主服务器的php-fmp进程挂掉了……涉及到交易和钱的都是大事,运维刻不容缓……


分析


1.在帝都立马招一个运维团队,对现在的小团队既浪费又不现实……
2.只好选择搭建个运维平台……由于之前就是运维出身,zabbix和nagios都搞过,个人比较偏向zabbix,原因就不在这里解释,网上一搜一大把……但是问题又来了,zabbix必须得有专人维护,譬如添加报警,修改报警条件,还会设计写python脚本,得还招人,又走了1中的套路,感觉不可选(就当前的 人员结构不可取)……其实我的运维需求很简单,就几台服务器出现问题的时候给我发邮件通知就行,不涉及交换机,不涉及视频宽带什么的……偶然让我发现了cloudinsight,感觉这就是我想要的

zabbix: 上家公司在用,涉及到视频和CDN等5万台服务器,是监控利器,可以二次开发, 源码我也分析过,木有用框架写,前后端是一起的,当时很尴尬,很蛋疼
cloudinsight: 一个脚本命令就可以使用监控平台,平台图比较直观,对于小团队来说,这些监控策略就够了,报警邮件通知也就够了


使用


结合大公司的运维开发经验,个人建议在cloudinsight设置以下几类监控报警策略(具体参数自己设定):

  1. CPU使用率大于70%
  2. 内存使用大于80%
  3. 磁盘使用率大于80%
  4. 服务器Ping不可达
  5. nginx(各类进程)进程停止
  6. 80(各类端口)端口不可访问
  7. 5分钟/15分钟load负载大于3
  8. 接口(API)URL相应状态码不为200
    9.磁盘分区发生改变
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值