随着单机多核CPU以及GPU的大量使用,并行计算逐渐分成了三大类,(1)单机多核CPU,(2)单机GPU,(3)多机,即集群。在日常实验室的算法设计等普通计算任务中,绝大部分同学仅需在集群的某个计算node上开展实验。因为现在一个普通的node少说也有几十个核。本文涉及的是第三种并行,也就是多机,多node下几百几千甚至更多个核的并行计算模式。这种集群并行首先需要解决的是node间的通信问题,一般用ssh来实现。
以我们实验室为例,集群有几百个node,每个node少说也有8个核。要进行并行计算,必须先完成这些node间ssh免密访问的设置。具体步骤如下:
第一步:检查用户目录的权限是否是700,比如用户名是zhangs,则/home/zhangs这个目录权限必须是700,777也不行。
![](https://i-blog.csdnimg.cn/blog_migrate/04a4b40b28e6d5546fbfbd75f9e34de7.png)
第二步:在console上产生公私密钥。连续回车即可。
ssh-keygen