![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 90
问君陈
技术驱动 迎难而上 随机应变
展开
-
k8s tfjob批调度-volcano调研
背景最近工作聚焦在机器学习这块,公司采用的kubeflow框架中的tfjob,利用tersorflow进行分布式训练。在训练过程中,发现在整体资源不足的情况下,由于k8s默认调度器调度的粒度是pod,但是tfjob可能对应多个pod, 多个tfjob可能会互相争抢资源而陷入资源死锁。于是开始调研解决方案,优先考虑开源的方案,最终发现2种解决方案:第一种是kube-batch及从此之上衍生的volcano, 可以作为k8s第二调度器,对机器学习、大数据等job类任务批调度做了特殊优化第二种是k8s原创 2021-04-10 11:19:25 · 1618 阅读 · 0 评论 -
Tersonflow Serving原理
Tersonflow Serving原理前言当我们将模型训练完毕后,往往需要将模型在生产环境中部署。最常见的方式,是在服务器上提供一个 API,即客户机向服务器的某个 API 发送特定格式的请求,服务器收到请求数据后通过模型进行计算,并返回结果。如果仅仅是做一个 Demo,不考虑高并发和性能问题,其实配合 Flask 等 Python 下的 Web 框架就能非常轻松地实现服务器 API。不过,如果是在真的实际生产环境中部署,这样的方式就显得力不从心了。这时,TensorFlow 为我们提供了 Ten原创 2021-03-07 20:44:59 · 384 阅读 · 0 评论