因为最近要跑网络,想尽量提高服务器利用率,因此这里记录下如何监控各硬件使用情况。
首先,CPU和内存可以直接执行
$ top
然后出来的界面就能看到CPU和显存MEM的使用情况了。但是这个界面全是数值,不好用。这里推荐使用htop。执行
$ sudo apt-get install htop
$ htop
然后就能看到界面了。可以清晰地看到你有几个CPU核,以及你的内存大小,内存占用情况等。
接着GPU部分。nvidia-smi可以直接显示显卡情况,可以通过添加watch指令实时监控。
watch -n 0.1 nvidia-smi
这样就可以在跑程序的时候动态监控了。不过这个界面还是太冗余,尤其对于有多块显卡的服务器而言。因此,这里推荐使用gpustat:
pip install gpustat
watch -n 0.1 gpustat
这里就可以直接直观的看到各显卡的参数了。