随着企业服务器数量越来越多,当到达几百台、上千台服务器之后,服务器的日常管理也逐渐繁杂,如果每天通过人工去频繁的更新或者部署、管理这些服务器,势必会浪费大量的时间,而且人为的操作极有可能造成某些疏忽和遗漏。
如何让运维可以轻松配合开发和测试,管理好业务,已经成为运维最大的挑战。
运维人员在工作中经常会遇到的挑战有哪些呢?比如:
-
IT设备的历史故障信息和维保信息是否方便查看?
-
IT设备是否存在资源闲置现象?
-
常规运维操作(例如:安装系统、配置NIS、NFS、OpenLDAP、系统健康巡检、修改密码、启停系统服务)是否可以自动化执行?
-
多种Linux发行版有没有办法统一管理?
-
业务部门反映一台Linux系统性能慢,如何快速查看这台系统的硬件配置、 监控信息和日志信息?
-
经常需要做的运维需求是否可以利用平台工具实现自动化操作?
-
......
为了解决运维可视化、自动化等问题,我们开发了Augur自动化运维管理平台。上面涉及到的问题,使用Augur自动化运维平台都可以解决。
Augur自动化运维平台以保障业务安全、稳定和可靠运行为目的,是提供自动化运维、安全补丁更新、日志分析、性能监控和资产管理等多个实用功能的一体化运维平台。
1.Augur平台架构图
Augur平台架构图
2.Augur平台核心功能
Augur平台核心功能
3.功能介绍
(1)资产管理
-
可以管理服务器、交换机、通用设备,以及CPU、内存条、GPU、硬盘、RAID控制器、网卡等。
-
可以为服务器添加维修记录。
-
当硬件发生变更时,Augur可以自动检测硬件变更信息。
-
数据中心可以对机房机柜图进行可视化管理。
-
云资产可以对云服务器进行周期性费用管理等。
运维管理-主机界面
资产管理-数据中心界面
(2)自动化运维
-
自动化运维场景,包括如下常用运维场景:
-
EDA-HPC部署工具(NIS、OpenLDAP、FreeIPA、LSF、HPCinsights、Athena等一键式部署)
-
常规部署工具(PXE、Cobbler、Module、Docker、K8s、MySQL等常规服务一键式部署)
-
常用工具(生成hosts文件、关闭防火墙和SELinux、时间同步、NFS部署)
-
巡检工具( Linux健康检查、安全基线巡检)
-
安全工具( Linux安全加固、更改用户密码)
-
-
自动化脚本库管理:可以查看、编辑、管理自动化脚本库。
-
自动化流程编排:可以用鼠标拖拽方式进行自动化场景编排和可视化执行。
自动化运维-场景界面
自动化运维-脚本库界面
自动化运维-流程编排界面
(3)监控管理
-
监控管理集成Zabbix、Prometheus、Elasticsearch等主流开源监控方案,可以与现有监控系统直接对接。
-
监控管理可以实现多数据源统一监控和大屏展示。
监控管理-监控图形界面
大屏展示界面
(4)数据分析
-
分布式日志管理,通过Elasticsearch实现操作系统、中间件和业务应用日志的统一查询分析。
数据分析-数据检索界面
(5)安全管理
-
可以自动检测Linux系统安全漏洞,支持Red Hat 、CentOS 、Ubuntu等主要Linux发行版。
-
以国际通用的CVE编号查看系统安全漏洞,可根据CVE编号进行批量Linux安全更新。
-
Linux打安全补丁采用最小版本升级方式,即只打到最接近当前版本的可修复版本。
-
Linux打补丁操作可以一键式回退。
-
关键和重要安全补丁一键式更新。
-
可以批量安装和删除软件包,删除软件包时提示依赖包确认。
-
全部系统Linux版本、已安装软件包版本快速查看。
安全管理-补丁与功能界面
(6)计费管理
-
计费管理主要是帮助用户进行成本评估。
-
Augur通过HPCinsights(HPC监控和智能分析平台)获取CPU、内存资源的使用情况,可以从项目、用户、主机三个不同维度汇总其总费用。
计费管理界面
4.Demo视频
下面是Augur这款软件的功能演示视频。
Augur自动化运维平台功能展示
如果您对Augur感兴趣,就快点加入讨论群吧!在群中我们会解答安装和使用中的问题。(QQ群:651684849)
欢迎关注下方微信公众号【HPC常青园】,共同交流HPC集群管理经验和最佳实践。如果您有关于HPC集群的具体需求,欢迎邮件沟通交流:hpc@ivyent.cn。