运维之路
dzliang_10
golang,云原生,机器学习,网络,存储,运维开发,安全开发,基础工具开发
展开
-
运维开发工程师技能修炼
Ops make no ops 不太会翻译这一句话,估计是想说运维全自动化,自动发现问题,自动解决问题。1、Linux操作系统 ubuntu、centos、redhat等2、c/python/ruby/golang/perl/ tcp/ip、socket网络编程、文件操作、web服务等3、Linux脚本 常用linux系统命令、gre原创 2015-12-16 11:42:10 · 2011 阅读 · 0 评论 -
etcd数据备份
etcd数据备份环境版本:etcd-v3.0.0-linux-amd64 目录:/home/work/etcd-backup 程序:etcd-dump、jq 脚本:backup.sh程序etcd-dump 使用帮助 Usage of ./etcd-dump: -action=”“: only support backup or原创 2016-10-21 00:30:37 · 4822 阅读 · 0 评论 -
skydns+etcd域名服务压测
压测性能瓶颈在于dns服务器本身,而跨机房与同机房的qps与总量相差一倍。并发量1000时,dns服务工作稳定。并发量在3000以上,跨机房丢包率比较严重,大约2.5%。并发在5000以上,同机房丢包原创 2016-06-07 22:32:43 · 4772 阅读 · 0 评论 -
skydns+etcd域名服务集群
机器迁移到云端,使用机器名方式统一命名规范,更加易于集群管理、运维管理工作。往往根据机器可以得知,机器所属地区、部门、业务、集群等信息,有利于记忆辨认。网络上还是以IP地址形式通信,统一命名规范要求机器名与网络地址映射支持。早期使用本机hosts进行机器名解析,主机不断增多时,hosts文件管理变得复杂,解析性能也在下降;使用第三方域名服务,方便快捷不在需要调研开发等工作,只是处理问题变得繁琐,域名信息暴露给第三方,存在安全信息泄漏等隐患;如果机器数量达到成千上万级别,可以考虑自建DNS服务集群。原创 2016-06-07 22:44:01 · 5275 阅读 · 0 评论 -
自动化运维管理平台设计
互联网发展到如今,对于一般企业线上线下机器成千上万数量级已经是司空见惯。对于运维人员来说,手动去管理那一万台机器,简直就是无法完成的任务。随之而产生的是运维自动化,帮助运维人员管理监控那一堆跑着各种各样服务的机器。其实,到了今天这种地步,运维自动化早就是一种家常便饭的事情。开源社区或者是商业软件有非常多监控、运维管理平台。但是,就像穿衣服一样,不是任何一件衣服穿上身都合适。所以,可以根据自己的情况,量身定做合适的自动化管理平台,应该也是一个慢慢积累过程才对。原创 2016-04-25 21:40:33 · 7678 阅读 · 0 评论 -
mysql主从备份功能配置与测试
在高访问量服务环境下,单机配置mysql服务将无法满足频繁高速的数据读写操作。一旦mysql出现问题造成数据丢失,无法恢复。因此,在mysql服务上启用主从备份功能,支持读写分离技术。最靠可的是搭建负载均衡分布式数据库系统,更加可靠、稳定。原创 2016-04-08 22:32:15 · 1825 阅读 · 0 评论 -
高性能可靠服务集群架构
庞大的业务访问量需要高性能、可靠的服务器框架支撑。高性能要求服务器在巨大压力下仍然高速运行,读写返回正确的业务信息,前端用户体验良好。可靠性要求服务器出现宕机、罢工等情况,可以及时恢复服务器正常工作状态,支持业务系统24小时健康运行。使用缓存、读写分离技术提高服务器访问资源速度,解决大访问量资源拥堵问题;使用负载均衡与高可用技术提高服务器响应速度以及服务器稳定性,解决服务器处理大用户量请求问题以及服务器宕机的及时恢复能力。原创 2016-04-07 23:10:02 · 6547 阅读 · 0 评论 -
分布式文件系统FastDFS配置与使用
FastDFS 是一个用C语言编写的分布式文件系统,刚开始接触FastDFS的时候,是因为文件同步。后来发现自己完全理解错误,FastDFS并不是Rsync那样文件同步,但是既然开始了就继续深入了解她。FastDFS支持的文件同步是把文件上传到调度器(tracker),然后按照管理员设定把文件下发到其中一台文件存储器(storage),成功后把文件同步到其他各台机器。FastDFS也可以作为文件存储、文件上传下载等,可以解决文件服务集群的分布式部署与负载均衡。一个典型的例子是充当图片服务器,为论坛、电商等提原创 2016-04-05 23:35:39 · 9045 阅读 · 2 评论 -
Open-falcon Agent模块rpc通信过程
在解析Agent模块通信过程的同时,需要对Agent模块的内容进行简单的概述,主要包括以下几个方面,是支持Agent通信模块的基础内容。Open-falcon是小米公司开源的一个企业级运维监控系统,主要使用go语言编写。总体结构分为服务端与客户端,站在使用者的角度上看,可以有非常多个客户端对应一个服务原创 2016-03-03 22:39:54 · 10468 阅读 · 0 评论 -
open-falcon transfer 模块监控数据处理
除了监控报警之外,监控系统的另外一种重要信息是监控数据。监控数据来源于主机的agent模块,agent收集到主机的被监控的数据,实时上报给transfer模块,tansfer模块把信息及时反映给图形界面模块和监控数据判断模块。原创 2015-12-25 10:33:08 · 4196 阅读 · 0 评论 -
open-falcon alarm 模块报警信息处理
使用open-falcon的人估计都会去折腾该监控系统的报警过程,因为一个监控系统的核心功能就是监控报警,报警也是监控的最终目的。所以,了解一个监控系统的报警原理是每一位使用者必有的好奇心。好像是没有弄明白一件事,心理层面就会有一根刺插在那,非要把他拔掉一样。我想这不是对追求知识的执着,而仅仅是强迫症的一种表现。下面,是我对open-falcon报警信息处理过程的分析思路。包括:前期环境的准备、分析过程、处理过程、处理的优化。系统环境: Ubuntu15.04_64bit、open-falcon源码、原创 2015-12-22 10:44:40 · 13067 阅读 · 2 评论 -
docker部署etcd集群
docker部署etcd集群问题1: mac系统etcd之前的网络通信 问题2:etcd集群部署脚本(ip&node_name) 问题3:本地discovery的方式dockerdocker file~/docker/etcd_node_docker/Dockerfileadmin.sh~/docker/etcd_node_docker/admin.shbuild imagedocker原创 2017-12-07 22:39:55 · 2569 阅读 · 0 评论