云原生智算平台
文章平均质量分 82
云原生智算机器学习平台
Pistachiout
记录学习
展开
-
SOA架构介绍与简单代码示例
SOA是一种设计方法,其中包含多个服务,服务之间通过相互依赖最终提供一系列的功能。一个服务通常以独立的形式存在与操作系统进程中。各个服务之间通过网络调用。原创 2023-12-27 16:52:53 · 494 阅读 · 1 评论 -
云原生机器学习平台cube-studio开源项目及代码简要介绍
cube-studio是开源的云原生机器学习平台,目前包含特征平台,支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;在线开发,在线的vscode/jupyter代码开发;在线镜像调试,支持免dockerfile,增量构建;任务流编排,在线拖拉拽;开放的模板框架,支持tf/pytorch/spark/ray/horovod/kaldi等分布式训练任务;task的单节点debug,分布式任务的批量优先级调度,聚合日志;任务运行资源监控,报警;定时调度,支持补录,忽略,重试,依赖,并发限制,定时任务原创 2023-12-27 15:26:16 · 2370 阅读 · 8 评论 -
加载离线镜像包:在线镜像离线为tar包、tar离线镜像包加载并根据imageId打tag
需要四个文件,第一个是第一步生成的压缩包output.tar,第二个是脚本文件image_offline_load.sh脚本,第三个是image_list.txt 按行 存放需要离线的镜像名称,第四个是第一步生成的 imageid_list.txt 存放离线的镜像id。需要两个文件,第一个是脚本文件image_offline_load.sh脚本,第二个是image_list.txt 按行 存放需要离线的镜像名称。原创 2023-12-07 20:39:19 · 655 阅读 · 0 评论 -
shell脚本批量实现项目镜像本地化:docker注册证书login到harbor、将镜像push到harbor仓库、批量判断镜像是否在harbor仓库中已存在、find+sed替换源代码镜像地址
我们使用docker login/push/pull去与Harbor打交道,上传下载镜像等。当然,以上脚本的关键在于image_name与new_name的获取,若new_name可根据image_name修改得到,也可以更改脚本得到适合自己的new_name,以下可供参考。如上所示,我们首先需要准备一个images.txt里面包括了所有下载镜像名及上传名,如下所示,每行包括image_name与new_name,其中用空格隔开。, 然后把harbor的证书ca.crt等拷贝到这个目录即可。原创 2023-09-13 14:26:40 · 733 阅读 · 0 评论 -
KubeFlow组件介绍
这很大程度上减少了运维的工作。kubeflow是一个胶水项目,它把诸多对机器学习的支持,比如模型训练,超参数训练,模型部署等进行组合并已容器化的方式进行部署,提供整个流程各个系统的高可用及方便的进行扩展部署了 kubeflow的用户就可以利用它进行不同的机器学习任务。(自定义资源),通过这样一个资源类型,使用 TensorFlow 进行机器学习训练的工程师们不再需要编写繁杂的配置,只需要按照他们对业务的理解,确定 PS 与 worker 的个数以及数据与日志的输入输出,就可以进行一次训练任务。原创 2023-08-30 16:14:16 · 1204 阅读 · 0 评论 -
Kubeflow Pipelines介绍与实例
kubeflow/kubeflow 是一个胶水项目,。pipelines 是基于 kubeflow 实现的工作流系统,它的目标是借助 kubeflow 的底层支持,实现出一套工作流,支持数据准备,模型训练,模型部署,可以通过代码提交等等方式触发。原创 2023-08-10 09:50:07 · 1118 阅读 · 0 评论