如何在K8s集群中管理与使用GPU 随着人工智能的兴起,GPU作为重要的智算算力类型愈发受到重视,而Kubernetes(k8s)作为业界主流的集群管理系统,如何方便管理、使用GPU也是其需要解决的一大问题,故此收集整理了K8s管理与使用GPU的相关资料以学习。
【论文阅读】Gödel: Unified Large-Scale Resource Management and Scheduling at ByteDance 字节跳动2023年在云计算顶会SoCC上发布的其自研在用的在生产级别离线混部系统Gödel,实践表明Gödel可以实现高达 5000 个 Pod/秒的吞吐量,同时在单个 Gödel 集群上保持约 60% 的总体资源利用率。
万字总结!Docker简介及底层关键技术剖析 本文对Docker进行了详细介绍,对其与LXC、VM的区别做了对比说明,又对docker的关键组件镜像、容器、厂库做了介绍,最后对docker的关键底层技术命名空间、控制组、 UnionFS及网络和存储做了详细剖析。
【MIT6.824】lab2C-persistence, lab2D-log compaction 实现笔记 实现了Mit6.824中的lab2C raft系统中的数据持久化以及lab2D raft系统中的快照日志压缩。
Kubernetes 架构及部署、调度、状态管理流程简介 Kubernetes简称k8s,是用于自动部署、扩展和管理“容器化应用程序”的开源系统。本文介绍了K8s的核心组件的基础知识,一直K8s中有关部署、调度、状态管理流程的内容,以加深对K8s的初步理解。
【论文阅读】Not All Resources are Visible:Exploiting Fragmented Shadow Resources in Shared-State Scheduler 本论文增强共享状态调度器架构的可见性,以支持利用集群中的影子资源。论文对不可见的影子资源碎片进行了深入的理论和实验分析,并提出RMiner来敏捷地挖掘影子资源并透明地利用它们。通过工业级模拟,证明 RMiner 可以以较小的开销和冲突来提高服务器集群的整体性能。
在CentOS上使用源码安装Python3.7,不与系统Python2.7冲突,同时支持pip3(脚本安装,亲测有效) 该脚本主要是在Centos系统上使用源码安装Python3.7,安装后可以调用python3和pip3来进行使用,同时不与系统Python2.7冲突,还额外加入了腾讯的pip源来加速pip3下载包。
【论文阅读】In Search of an Understandable Consensus Algorithm 本文介绍raft。共识一致性算法常用在分布式系统中,一个系统会有一个领导者,如GFS,我们需要有多个领导者副本来提高系统的容错性。但是之前的共识性算法经常采用Paxos,但是该算法很难理解。所以本文的作者重点面向可理解性提出了一个新的共识性算法Raft。主要做法是将大步骤分解成小步骤,然后尽量降低复杂度。在具体关注其实现之前强烈建议去。
【论文阅读】The Design of a Practical System for Fault-Tolerant Virtual Machines "The Design of a Practical System for Fault-Tolerant Virtual Machines"是MIT6.824推荐阅读的论文之一,它介绍了一种通过主备机制来进行单核虚拟机级别的容错方法。