15分钟连接Jetson Nano与K8S，轻松搭建机器学习集群

最新推荐文章于 2022-06-29 21:09:30 发布

k3s中文社区

最新推荐文章于 2022-06-29 21:09:30 发布

阅读量834

点赞数

分类专栏： k3s教程文章标签： kubernetes

本文链接：https://blog.csdn.net/qq_42206813/article/details/115972514

版权

本文详细介绍了如何将Jetson Nano开发板连接到Kubernetes集群，作为GPU节点使用。首先，讨论了K3s与K8s的选择，然后阐述了设置NVIDIA Docker的必要性。接着，通过K3sup工具，只需1个命令即可将Jetson Nano加入K3s集群。最后，验证了GPU在Kubernetes Pod内的运行，包括运行MNIST训练任务，证明了这种方法的有效性。

摘要由CSDN通过智能技术生成

在本文中我将展示如何将Jetson Nano开发板连接到Kubernetes集群以作为一个GPU节点。我将介绍使用GPU运行容器所需的NVIDIA docker设置，以及将Jetson连接到Kubernetes集群。在成功将节点连接到集群后，我还将展示如何在Jetson Nano上使用GPU运行简单的TensorFlow 2训练会话。

K3s还是K8s？

K3s是一个轻量级Kubernetes发行版，其大小不超过100MB。在我看来，它是单板计算机的理想选择，因为它所需的资源明显减少。你可以查看我们的往期文章，了解更多关于K3s的教程和生态。在K3s生态中，有一款不得不提的开源工具K3sup，这是由Alex Ellis开发的，用于简化K3s集群安装。你可以访问Github了解这款工具：
https://github.com/alexellis/k3sup

我们需要准备什么？

一个K3s集群——只需要一个正确配置的主节点即可
NVIDIA Jetson Nano开发板，并安装好开发者套件

如果你想了解如何在开发板上安装开发者套件，你可以查看以下文档：
https://developer.nvidia.com/embedded/learn/get-started-jetson-nano-devkit#write

K3sup
15分钟的时间

计划步骤

设置NVIDIA docker
添加Jetson Nano到K3s集群
运行一个简单的MNIST例子来展示Kubernetes pod内GPU的使用

设置NVIDIA docker

在我们配置Docker以使用nvidia-docker作为默认的运行时之前，我需要先解释一下为什么要这样做。默认情况下，当用户在Jetson Nano上运行容器时，运行方式与其他硬件设备相同，你不能从容器中访问GPU，至少在没有黑客攻击的情况下不能。如果你想自己测试一下，你可以运行以下命令，应该会看到类似的结果：

 1. root@jetson:~# echo "python3 -c 'import tensorflow'" | docker run -i
    icetekio/jetson-nano-tensorflow /bin/bash
 2. 2020-05-14 00:10:23.370761: W
    tensorflow/stream_executor/platform/default/dso_loader.cc:59] Could
    not load dynamic library 'libcudart.so.10.2'; dlerror:
    libcudart.so.10.2: cannot open shared object file: No such file or
    directory; LD_LIBRARY_PATH:
    /usr/local/cuda-10.2/targets/aarch64-linux/lib:
 3. 2020-05-14 00:10:23.370859: I
    tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above
    cudart dlerror if you do not have a GPU set up on your machine.
 4. 2020-05-14 00:10:25.946896: W
    tensorflow/stream_executor/platform/default/dso_loader.cc:59] Could
    not load dynamic library 'libnvinfer.so.7'; dlerror:
    libnvinfer.so.7: cannot open shared object file: No such file or
    directory; LD_LIBRARY_PATH:
    /usr/local/cuda-10.2/targets/aarch64-linux/lib:
 5. 2020-05-14 00:10:25.947219: W
    tensorflow/stream_executor/platform/default/dso_loader.cc:59] Could
    not load dynamic library 'libnvinfer_plugin.s