从零起步做到Linux运维经理, 你必须管好的23个细节_运维经理管理经验分享

MySQL逻辑备份工具: mysqldump、mysqlhotcopy、mydumper、MySQLDumper 、mk-parallel-dump/mk-parallel-restore
MySQL物理备份工具: Xtrabackup、LVM Snapshot
MongoDB压测:iibench&sysbench

运维管理工作全貌
1、域名

从买域名开始,要买多个域名,50个甚至100个。分为主域名和推广域名(给推广链接用的)。要从godaddy上买域名,因为这里的域名稳定,不会出现被攻击等事情。同时还要买域名保护,这样互联网用户ping这个域名就解析不到真实的服务器地址。
同时域名解析的操作不要在godaddy上进行,要把解析的操作放在cloudflare上或者dnspod上进行操作,也可以放到zndns上(这个dns可以做到一个域名解析多个IP地址,根据就近原则,把最快的IP地址解析给用户。)也可以自己搭建dns服务器,在godaddy上只想到自己搭建的dns服务器就可以了。这样,修改dns指向的时候会更快。

2、 CDN

一定要买cdn服务。如果出现部分用户访问不了就使用cdn服务。可以从cloudflare上购买cdn服务,这样域名解析到cdn上,然后cdn解析到肉盾击还是那个,然后肉盾击指向核心服务器上。Cdn充当一个缓存和转发的作用,大流量攻击的时候他可以防御至少200G的攻击。Cdn是全球缓存的。

3、 图片服务器

在国内租用几台服务器做图片缓存服务器即可,这样提高访问速度。其实nginx本身就是一个图片缓存服务器。
图片服务器和其他服务器要分开,肉盾击可做图片缓存。

4、服务器机房

选择机房太重要了,要服务质量好的,还要高防好的,还要可靠性高的,还要相应及时的,还要能随时可以查看服务器状态的,最重要还要服务态度好了。
机房要买香港九河(用户核心服务器),美国圣安娜机房(用于肉盾击)(虽然慢,但是安全高防做的真好,大流量攻击的时候,这里的机房还是可以访问,所以,鸡蛋不要放在一个篮子里头,要各个等级都有才叫好的,国内机房快,但是高防效果差,美国机房慢但是高防效果好)

5、主页

一个主页,就是招商或成为打广告的网站,可以租用云主机,这样被打死就被打死吧。里面可以有一个链接,指向游戏首页,这个链接可以是带端口号的,那就简单了。
也可以是不带端口号的,这时候就一定要用cdn服务器,或者使用免备案机房,把肉盾击放在免备案机房,因为国内搭建网站都是要备案的,博彩这个行业是被禁止的,为了避免域名或者IP地址被和谐了(gwf)所以要用免备案机房。
或者就把肉盾击也放到香港或者台湾或者韩国等等机房。这样用户可以不使用端口号,直接用域名就可以访问咱们的网站。

6、监控系统

要个网站要有监控系统,实时监控服务器是否有攻击,功过查看日志是否激增,还要把日志放到日志服务器上(syslog服务),使用cacti服务可以把日志放到cacti上。网速是一定要查看的,网速激增则证明一定是有攻击。
每天要看日志,要用日志分析软件,看看访问源是单一访问源还是多个不同的访问源.监控服务器要有报警功能,一旦情况异常就要立刻报警,然后起床处理攻击。

7、 防攻击

攻击一般看情况而定,一般的攻击都是直接攻击域名。小量的攻击可以通过nginx和iptables本身的防御功能就防掉。大量的攻击由于直接把网络带宽占用满了,服务器无法正常相应,只能依靠机房的高防了。
所以要买大量的高防,建议至少200G。如果攻击源是单一IP或者几个IP,那么就让机房把这几个IP给屏蔽就可以了。遇到cc或者ddos攻击,只能靠机房解决。一台服务器被打死后,需要立刻把域名指向另一台服务器,(或者直接把域名指向百度)。
大量的攻击还要使用cdn,让cdn直接指向核心服务器就可以了,这样能快一点,让用户还可以玩。总之大流量攻击是不能完全防止的。

8、冗余
一个网站一定要有冗余,比如现在是1000人同时访问的并发量,一定要让网站的负载达到2000人的并发量,要不然一搞活动,网站负载不了那么多人就完了。

9、服务器

服务器的配置,要用三网卡,一个用于用户连接,对外的访问(要好的网卡)。一个用于内网服务器之间的访问使用。一个用于ssh管理,这样大量攻击的时候咱们还可以操作服务器。
每个网卡还要多个IP地址,这样防止某个IP被屏蔽了。国内网络和国外网络经常会有IP不好用的情况。硬盘至少要镜像(raid 1),cpu要两路的,双电源,总之不要有单点故障。至于肉盾击的配置可以低一些,甚至台式机的配置都可以,但是网络一定要好,尤其是和核心服务器之间的网络一定要好。

10、数据库

数据库要做主从复制,要有异地备份,nginx服务器要做集群,就是upstream。前台(提供用户访问页面)和后台(员工管理界面)要用两台不同的机器,不要互相影响。其余的服务可以使用一台虚拟机完成。
这样可以省钱,邮箱直接买google的gmail企业邮箱就好了,非常好用,最好没人一个。或者公司内部搭建自己的聊天软件(最好还钱买聊天软件)。

11、测试环境

测试环境要三套,开发人员电脑上自己的环境,要局域网一套测试环境,互联网一套测试环境,生产环境。局域网的测试环境一定要稳定,可以买一个机柜等等的网络设备放在一起,不要用普通电脑。局域网要有svn或git的代码管理工具。充分测试后在上传到生产环境。

12、肉盾击和核心服务器

肉盾击和核心服务器之间一定要可以使用ping命令,这样可以看看那个IP地址不能使用了,网络连通性都可以看出来。

13、运维人员

至少两个,如果有运维经理一个运维人员就够了。这样所有运维工作必须有操作文档,两个人互相协调工作,不需要倒班,但是24小时待命。网管一个就够了。
普通的运维部门大概就这样,如果是大的网络架构,会有自己的数据中心机房到时候在安排人手。

14、 Linux系统优化和安全

要有优化和安全配置,比如说nginx基于cpu的优化,每个程序基于cpu和内存的限制。
所有密码要有3个月就修改一次,尤其是域名的账号和邮箱密码,域名是最重要也是最脆弱的环节。

15、局域网

局域网一定要稳定,可以买两条网线,至少10M带宽,还要买一个移动wifi,给员工手机上网。

16、机房
如果是大型网络架构,那得有自己的核心机房,就不是租用机房了,每个岗位都是若干人组成的,包括运维工程师,数据库管理工程师,网络工程师,安全工程师,存储备份系统工程师,运维经历负责协调各个部门间的工作。目前就是一个运维就能完成所有的工作。

17、运维工具

运维的工具要统一,比如连接数据库使用sqlyog工具,连接服务器使用crt工具,密码管理用keepass,上传服务器代码使用winscp工具,等等。这样运维人员之间工作比较好协调。

另外运维一定要有大量时间学习,每天都要上网找新技术,好的资料,最好要懂英文,因为好的技术文档都是英文写的。这样对运维工作很有帮助,而且运维技术实力会有很大的进步的,为迎接更大的需求做准备。

18、灾备预案

最后一定要有预案,就是服务器一旦出现重大问题,就是解决不了了,这个时候就不要去解决这台服务器,使用预案,把启用备用方案,尽快让网站可用。
平时多做预案演习,还要多做备份的还原操作,因为有的备份不可用,这是常见现象。别到关键时刻备份不能用,整个网站就完了。

19、服务器安全

要有一整套的安全配置,包括用户安全,应用安全,系统安全,文件安全等。这样防止服务器被黑客侵入。

20、高并发测试

一定要做高并发测试,模拟同时在线用户2000人,看服务器的负载情况,要有服务器高并发配置,网络方面是机房的事情,但是得选择最合适的IP地址,最适合的机房,及出口带宽。

高并发是服务器架构的事情,不是单单一台服务器的事情。该花钱的地方一定要花,可以省钱的地方要知道怎么省钱。

21、 运维信息

运维所有信息两个人共享,包括密码和服务器配置步骤,由运维经理带领团队,打造成一个互相学习,技术实力雄厚,目标一致的和谐团队。让每个人在团队中都得到自己想要的。

运维经理的为人就很重要,要不然留不住人,大家心不往一起使劲。运维工作技术不是最重要的,因为这个职位现学现用也来得及,所以工作态度/为人和经验是最重要的。

22、服务器日志

对服务器建立日志,所有服务器的所有操作都要有记录,并且写清时间操作内容。对生产服务器操作之前一定要做风险评估及解决方案。

23、运维工作

应用上线后,运维工作才刚开始,具体工作可能包括:升级版本上线工作、服务监控、应用状态统计、日常服务状态巡检、突发故障处理、服务日常变更调整、集群管理、服务性能评估优化、数据库管理优化、随着应用PV增减进行应用架构的伸缩、安全、运维开发工作。

核心运维管理工具箱
重点介绍运维流程管理、运维发布变更、运维监控告警三个方面的具体工具,可作为工作日记使用。

第一类:运维流程管理工具
1.发布变更流程管理工具

做为系统接口与其他角色的工作衔接。并提供审批环节控制发布变更的风险。流程管理工具并不负责具体的业务操作的执行,只是作为单据系统跟踪流程和确保闭环。

2.告警和突发管理工具

体现业务受损的告警自动建单管理。人工确认之后升级为突发单。通过建单管理告警和突发确保流程的闭环,以及每次故障都能够总结出经验,并未度量业务的可用性提供KPI。

第二类:运维发布变更工具
1.版本管理工具(数据库)

所有的发布应该以版本管理为起点。研发给的版本包先入版本管理工具,再从版本管理工具分发到现网发布。杜绝 rsync 一台服务器发布另外一台的做法。

2.配置管理工具(数据库)

版本加配置等于现网每台机器的状态。最粗粒度的配置管理是到 IP 级别,相当于对机器做资产管理,分组到不同的业务,模块和大区等业务概念上。细粒度一点会管理到进程以及进程的相关配置。

3.配置和版本下发工具

把指定的版本,结合配置好的配置下发到现网的机器上。不同的版本和配置方式需要完全不同的下发方式。以 ssh/fabric 为代表的下发方式是以脚本为中心的。以 puppet/chef 为代表的下发方式是以配置为中心的。

4.现网状态同步工具

为了规避现网状态漂移,与管理工具内的记录不一致。需要有一个工具定时上报现网的实际状况。

5.服务调度工具

发布变更经常需要一个串行的流程,先做A模块,再做B模块。很多机器的时候,需要把能并发的操作并发执行,不能并发的操作确保串行执行。同时很多发布变更流程需要操作管理范围外的服务,比如云端的DNS服务器记录等。这就需要有一个服务调度工具统一调度配置和版本下发工具,流程单据工具,以及其他系统的API接口共同组装成一个流程。

6.资源管理和隔离工具

以xen/kvm为代表的工具让运维可以更灵活的切割资源。比如虚拟机的快速起停,ip在idc内的漂移等。以 lxc/docker 为代表的工具让运维可以进一步的切割资源到进程级别。资源隔离代理的细粒度的资源控制可以获得更好的资源利用率,以及更容易进行可伸缩的资源配置。

7.发布变更统一界面

包装所有的下层工具,提供简单的界面完成标准化的发布变更操作。

第三类:运维监控告警工具
1.采集工具

一般是采集日志文件,也可以是定时轮询 DB 或者其他系统的接口。流行的开源方案是 logstash。

2.收集工具

采集工具上报给收集工具。或者由开发直接修改代码上报指标给收集工具。流程的开源方案还是 logstash。

3.统计入库工具

上报可能是每次调用就上报一次,统计工具负责统计出一分钟内的次数。上报也可能是每5秒上报一次数值,统计工具负责统计出一分钟内的最大值。统计工具的存在是为了上报的方便。流行的开源方案是 statsd,也有大公司基于 storm 来做二次开发的。

4.时间序列数据库

所有定时指标会落地到数据库里。监控告警所需要的数据库需要能够支撑非常大的数据量,但是并没有很严格的 ACID 要求。

5.运维事件数据库

记录所有的告警。包括从其他系统获得告警,以及对现网的所有变更操作记录。这些数据用于支撑告警的原因定位。

6.指标异常检测工具

基于数学模型发现指标是否与过去的稳定模式背离,而推测出现网状态的变化。

7.拨测工具

定时 PING 或者 HTTP GET,模拟实际用户发现服务是否中断,产生告警。同时也产生指标上报给收集系统。拨测又分为本地拨测,和远程拨测。本地拨测可以用于发现磁盘只读等本机告警。远程拨测可以模拟用户的地理分布,把网络的链路状况也包含在拨测覆盖的范围内。

8.告警收敛工具

综合所有来源的告警,进行频率收敛,根源分析。统一汇总成报告催促人工修复。

9.告警自动修复工具

接受告警进行自动化的处理。帮运维完成固定的故障机下架退库等操作。或者在业务本身没有做高可用的情况下,做故障机替换,ip漂移等现网修复操作,一定程度地提高业务可用性。

10.告警通知工具

最全的Linux教程,Linux从入门到精通

======================

  1. linux从入门到精通(第2版)

  2. Linux系统移植

  3. Linux驱动开发入门与实战

  4. LINUX 系统移植 第2版

  5. Linux开源网络全栈详解 从DPDK到OpenFlow

华为18级工程师呕心沥血撰写3000页Linux学习笔记教程

第一份《Linux从入门到精通》466页

====================

内容简介

====

本书是获得了很多读者好评的Linux经典畅销书**《Linux从入门到精通》的第2版**。本书第1版出版后曾经多次印刷,并被51CTO读书频道评为“最受读者喜爱的原创IT技术图书奖”。本书第﹖版以最新的Ubuntu 12.04为版本,循序渐进地向读者介绍了Linux 的基础应用、系统管理、网络应用、娱乐和办公、程序开发、服务器配置、系统安全等。本书附带1张光盘,内容为本书配套多媒体教学视频。另外,本书还为读者提供了大量的Linux学习资料和Ubuntu安装镜像文件,供读者免费下载。

华为18级工程师呕心沥血撰写3000页Linux学习笔记教程

本书适合广大Linux初中级用户、开源软件爱好者和大专院校的学生阅读,同时也非常适合准备从事Linux平台开发的各类人员。

需要《Linux入门到精通》、《linux系统移植》、《Linux驱动开发入门实战》、《Linux开源网络全栈》电子书籍及教程的工程师朋友们劳烦您转发+评论

  • 7
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值