SimDep Beta阶段发布声明

(TO BE DONE版本,计划发布时间6月7日,最终部署方式也会那个时候更新)

(受限于资金问题👉👈,Beta版本上线时间最多是24小时,7块钱一小时的GPU服务器,我们尽力了)

(我们发布时会放出部署脚本,如果上线时间内来不及体验的同学,可以自行在虚拟机/物理机/服务器上进行部署)

Beta版本新功能与特性

  1. 新增管理员用户角色

姓名管员理美
年龄20-30
用户市场比例10%
用户重要性重要
典型场景部署平台,并对其进行配置,以满足平台用户的需求
动机需要尽可能配置服务器来满足一个群体的使用需求,并且降本增效
困难Alpha版本的函数平台部署很麻烦而且没有对私有化部署做支持功能上放权不够,自由度并不高
特点可以承担一定的学习成本,但是需要自由度

典型应用场景:平台管理员需要对于一个服务器集群寻找一个合适的管理平台,调研到了SimDep平台决定选择该平台作为集群管理平台。

利用平台提供的文档安装上了Kubernetes集群,根据集群拓扑结构信息编写好配置文件后,利用平台提供的yaml文件将平台部署到了集群中。

部署完成集群后,管理员制作了几种用户需要的基础镜像,并配置了对应的工程模板,根据配置文件中设置的用户名和密码登录上平台后将基础镜像添加到了平台上,为机构用户创建了账户。

随后将访问方式发放给了平台用户,不一会就可以看到已经有用户登录并创建了函数,资源利用率相较之前的较低水平也有所升高。

  1. 新增用户文件系统

支持用户上传文件至自己的文件空间,在启动容器后可以在容器内访问到上传的文件,大大便利了机器学习数据集、ONNX模型等物料的使用场景。

同时也支持对服务写入该目录,可以通过这一功能获取计算结果、输出日志等数据文件。

  1. 更自由的项目结构

Beta版本将容器打开,支持对整个项目目录进行定义,根据管理员提供的模板,用户可以自定义对应的工程目录,实现多文件、多功能的服务部署。

  1. 开放容器Webshell调试

Beta版本开放了服务对应容器的WebShell调用,让开发者可以进入容器内运行自己的代码,拓展出了机器学习代码调试、服务调试等应用场景

  1. 支持配置资源上下限

支持对服务每一个副本所需要的资源量进行配置,保障服务所需要的最低资源要求,维护应用性能,能更好地限制服务的占用,避免应用挤占所有的资源

  1. 支持GPU驱动与调度

本次开放了GPU资源调度的支持,但是需要集群自身带有GPU且安装了对应驱动才可以支持,加入这一功能后支持了机器学习场景

Beta版本修复缺陷

  1. 全新的前端页面,更自然的操作逻辑

Beta版本对主页、项目管理等页面进行了重构,增加了主页的亮点呈现、优化组织项目的方式。

  1. 连接文件描述符耗尽问题修复

Alpha版本触发器存在概率性的连接不关闭情况,长期下来可能会导致文件描述符耗尽,使服务无法访问,本版本使用Kubernetes自带的Service和Ingress对服务进行触发,避免之前触发器带来的问题。

  1. 重构主从逻辑,支持更多子节点加入

Alpha版本由于镜像构建的逻辑、触发器的触发逻辑,限制了从节点的数量,但Beta版本更改了镜像构建和触发逻辑后,支持更多的从节点加入。

  1. 支持展示容器运行状态,定位问题更便捷

在Alpha版本中,对项目仅支持一个容器,并不支持展示容器的状态,Beta版本中项目(函数)与容器的关系成为了一对多的关系,其中加入了项目的状态、展示有多少个容器已经就绪,对容器也划分了多种状态,包括运行中、等待中、已完成、出错等状态,更清晰地定位容器运行状态。

Beta版本运行环境要求

  1. 部署环境

推荐使用Ubuntu系统进行部署,目前通过部署测试的系统版本有

  • Ubuntu 16.04 amd64
  • Ubuntu 18.04 amd64
  • Ubuntu 20.04 amd64
  • Ubuntu 22.04 amd64

Kubernetes版本已验证适配v1.19.0~v1.27.1

  1. 运行环境

推荐浏览器

  • Edge
  • Chrome

目前已通过测试的浏览器版本

Microsoft Edge版本 112.0.1722.58(正式版本)(64 位)

Google Chrome版本 112.0.5615.138(正式版本)(64 位)

Apple Safari版本 版本16.4 (18615.1.26.11.23)

安装与使用方法

  1. 安装Kubernetes

(脚本暂时还未整理)

  1. 安装NVIDIA插件(可选)

(脚本暂时还未整理)

  1. 部署NFS组件

(脚本暂时还未整理)

  1. 部署本应用

(脚本暂时还未整理)

已知问题和缺陷

  1. 不能在函数运行时修改触发类型

由于Beta版本触发类型来区分容器是CronJob还是Deployment类型,在修改触发类型后,可能会导致数据库函数信息与实际部署信息映射失败,导致函数脱离管控,无法操作函数

  1. Webshell WebSocket端口占用问题

Webshell由于使用WebSocket通信,需要占用一个端口号,应用默认分配了30000~34096区间的4096个端口,即最多同时开启4096个Webshell,对大规模应用可能无法找到满足的端口区间

  1. 仍然不支持改自己的信息

对的,我们暂时还不支持改自己的信息,可以联系管理员改一下

  1. Webshell需要容器外部署,暂未制作支持Webshell的镜像

受限于时间因素,目前Webshell未能自封装TTY与Websocket的绑定,需要使用Gotty工具实现,对容器内使用该工具较为困难,所以目前计算资源模块需要在容器外进行部署。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值