RMS(Resource Management System)是基于Tecs Director 和Tecs Openstack的资源管理系统。所处位置如下:
-
- 最底层是Tecs OpenStack,这个没啥说的就是管理硬件资源
-
-
资源回收:两种场景,用户自行释放资源,租约到期管理员强制回收。资源回收的操作就是调用Director的API删除相应环境资源的所有虚机
-
任务管理:主要就是一个定时任务去同步Director上创建的VDC以及相应的资源信息到RMS上进行入库,用户申请的时候首先查询RMS的表里是否有数据,再去执行创建。
-
资源监控:监控一套PaaS应用的状态,这是一个组合概念。包括环境是否在用(所有虚机运行正常),空闲(所有虚机正常但长期不用或者未分配给用户),异常(有某些虚机出现异常,环境不可用)。
-
资产管理:就是一个简单的资产信息登记管理,方便统计资产的使用率,资产状况等。
- RMS API:对外提供资源查询、申请、回收的API
-
一、资源结构模型
1、概念和术语说明
英文缩写 中文含义 解释 DC(Data Center)
数据中心 数据中心是这样一种设施,它被设想用来为一个或多个组织安置、管理、支持那些被认为至关重要的计算、网络和存储资源。在OES的机房管理使用的Director中,有上海、西安、深圳三个数据中心 vDC(Virtual Data Center) 虚拟数据中心 director上是一组虚拟资源的容器, 是TECS向租户提供资源的基本单位。可以理解对应1套测试环境:UME项目可以对应一整套PaaS环境(含Gbase等第三方的工具在内)所需要分配的资源;EMS项目可以对应一整套EMS环境(EMS\ICM\ZDC\OMMR\OMMB以及对应的网元模拟器)。VDC的资源大小可能不是固定的,会随着应用的资源消耗增加而改变。 Cloud environment 云环境 对应是TECS,1套云环境对应就是1套TECS环境 2、环境资源模型
说明:
a. 一个DC包含多套云环境(Tecs),一套云环境会划分多个vDC(Tecs租户),一个vDC会部署一套PaaS环境或者一套EMS环境。
b. 一套PaaS目前只部署一套UME,以后PaaS支持多租户后会部署多套UME
c. 一套EMS环境会包含EMS,OMM,ICM,ZDC
3、物理资源模型
说明:
a. 一个DC包含多套云环境(Tecs),一套云环境对应一个刀框,一个刀框多块刀片,一块刀片对应一种用途
b. 一套磁阵有多块磁盘,一套磁阵可供多个刀框共享使用
c. 一块刀片会对应一种用途,一套磁阵会对应多种用途
(1)刀框:
刀框编号 刀框类型 刀片数量 CPU 内存 管理IP 数据中心 采购时间 资产编号 ZX-CS-001 ZTE-E900 16 900G 2000G 10.62.123.11 上海 2017-10-11 ZX-55624983 (2)刀片
刀片编号 刀片类型 管理IP 使用状态 数据中心 采购时间 资产编号 ZX-CS-001 BL460c 10.62.123.13 已用 上海 2017-10-11 ZX-55621212 (3)磁阵
磁阵编号 磁阵类型 磁盘数量 容量 管理IP 数据中心 采购时间 资产编号 ZX-Rack-001 ZTE-KS3200 24 12000G 10.62.123.12 上海 2017-10-11 ZX-55624212 (4)用途
用途编号 项目 用途分类 使用方式 刀框编号 刀片数量 磁阵编号 使用时间 201705225 UME PT/ST/FT/开发联调/项目集成 VM/裸金属 ZTE-E900 3 ZX-Rack-001 2017-10-15 说明:
a. 刀框、刀片都要有统一的编号,刀框要和云环境对应。刀框和刀片对应。
b. 刀框、刀片、磁阵在采购之后先通过RMS录入系统,然后根据使用用途规划设备使用
二、数据监控:云环境使用率(实际是云环境的CPU,内存)
序号 数据中心 云环境 CPU总量 内存总量 CPU剩余量 内存剩余量 CPU使用率 内存使用率 01 上海 SH_UME_ZX_01 1540 3519 0 204 100% 94% 三、物理资源规划:物理设备可以按照需求进行划分环境使用情况
序号 问题 解决思路 备注 1 PaaS资源提供给团队之后,如何避免团队私自重建PaaS,
使得RMS环境统计不准确?
PaaS网络监控,发现IP不通时间超过一设定值或者
PaaS的版本号与RMS管理不一致,则将该IP禁止访问。
PaaS环境网络是我们监控PaaS是否一直
提供服务的判断条件。另外PaaS的版本也
要与RMS管理一致。
2 有些团队申请比较多的资源,资源是否真正使用了,
使用了多少,能否有数据说话?
对环境的数据进行监控和统计,关于占有率问题,可以把数据统计之后,
先人工分析和观察,再制定资源回收的规则.
环境 1周资源占用率 最近3天访问用户数 使用团队 1 CPU/内存/存储占用/IO的流量 用户访问环境的纪录 团队名称 2 .. ... .. 以UME的CI流水线为基准,统计分析PaaS对资源的占用率
1)OKI对CI流水线资源的规划数据,比如CPU、内存的分配
2)监控CI流水线实际运行过程中对物理资源占用情况,CPU、内存、存储
3)通过监控数据和规划数据对比,分析出规划资源是否合理
4)要能够把数据按照PaaS版本进行统计和汇总,做历史对比,比如半年数据对比
王庆帅10103088 苏高波10227238 石勇10159532 顾谊10183302
VDC名称 使用用户 版本号 数据中心 开始时间 结束时间 CPU平均 CPU峰值 内存平均 内存峰值 单套环境数据:
通过资源占有率和用户访问数据为依据,
判断环境是否有人使用,以及使用的频次.
如果数据低于设定值,资源团队可以考虑
回收资源.
汇总数据:
3 提供的环境,如何监控环境是否正常运行?
- 最底层是Tecs OpenStack,这个没啥说的就是管理硬件资源