分布式系统的自主服务
分布式系统作为server运行在机器上,需要很好的自动化运维来操作集群上的复杂的分布式系统。自动化运维要做到基础数据的完整收集,关键信息的准确推送,运维流程的正确/简便执行和确认,进程内部数据按需获取,对象运行状况的长期监控、工具集成,方便运维人员和系统开发内部人员操作。以满足devops和专有域输出,解放生产力。高级功能还有故障辅助诊断、workload自动分析等。整个过程做成闭环。
在云计算场景中,系统涉及很多方面:
(1) 包括升级,配置升级,机器上下线,磁盘替换,重启进程,重启机器等;
(2) 系统的负载分析,机器load分析, 系统的监控状况检查;
(3) 系统的监控报警接入;
(4) 日志显示。
......
因此,分布式系统需要结合运维平台,通过运维平台发出运维操作,该操作可以指定对系统服务的影响以及数据安全性指数。分布式系统需要研发出自己的决策模块,该决策模块用于对运维平台发出的操作进行评估,给出同意还是拒绝。同意的前提是需要做好分布式系统的可用性以及数据安全性。
可以参考的资料:
157

被折叠的 条评论
为什么被折叠?



