集群管理
__Sunny__
学习记录生活
展开
-
【集群管理】数据挂载mount命令及批处理dsh命令
client端: mount -t nfs[server_ip]:[server_目录] [本地目录]mount -t nfs 源节点ip:源节点目录 本节点目录(本地一定有有该目录) 例如 mount y1:/home/pub/caffenew/caffenew/ -> 本地要先新建 caffenew 文件夹 mount 基本命令:mount -a原创 2016-12-21 10:15:54 · 1889 阅读 · 0 评论 -
Linux ssh无密码登录
总体来说两个步骤:生成本地密钥~/.ssh/id_rsa.pub,将密钥复制到远程机器的~/.ssh/authorized_keys文件中在两个节点上分别进行如下步骤,以node00为例1. 生成密钥,会生成~/.ssh/id_rsa.pub文件命令: root@node00:~# ssh-keygen -t rsa2. 通过scp将原创 2018-01-26 10:45:26 · 308 阅读 · 0 评论 -
nvidia-smi命令
nvidia 的系统管理界面 (nvidia-smi),可以收集各种级别的信息,查看显存使用情况。此外, 可以启用和禁用 GPU 配置选项 (如 ECC 内存功能)。1. nvidia-smi 命令解释相关参数含义:GPU:本机中的GPU编号Name:GPU 类型Persistence-M:Fan:风扇转速Temp:温度,单位摄氏度Perf:表征原创 2017-11-16 16:30:58 · 21123 阅读 · 2 评论 -
Linux查看物理CPU个数、核数、逻辑CPU个数
# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)cat /proc/cpuinfo| grep "cpu cores...转载 2017-11-17 15:55:31 · 616 阅读 · 0 评论 -
MPI问题:HYDU_sock_connect (../../utils/sock/sock.c:224): unable to get host address for node1 (2)
在两个节点运行 MPI 程序时,出现以下错误:[proxy:0:1@node2] HYDU_sock_connect (../../utils/sock/sock.c:224): unable to get host address for node1 (2)[proxy:0:1@node2] main (../../pm/pmiserv/pmip.c:453): unable to co原创 2017-06-29 12:08:28 · 7453 阅读 · 1 评论 -
卸载并重装openssh(解决ssh -1问题)
在集群测试过程中,有一个节点的openssh装的有问题,需要ssh -1 才能登录,导致多节点的mpi无法使用。修改配置文件什么的也没有用(也许是我改的不对。。)最后决定直接重装openssh1. 卸载先查看openssh的相关包[root@node51 ~]# rpm -qa openssh*openssh-server-6.6.1p1-11.el7原创 2017-06-29 12:02:50 · 41752 阅读 · 0 评论 -
NIS/YP 错误:Domain name cannot be (none)
在 NIS/YP 环境中增加新用户时, 在 NIS 服务器上加入用户后, 重建 NIS 映射时,出现以下错误[root@dl1 yp]# vim /bin/domainnameDomain name cannot be (none)查询 ypserv 的状态,没问题但是查询 yppasswdd 的状态时,发现 yppasswdd dead[root@dl1 ~]原创 2017-04-23 11:08:34 · 3239 阅读 · 0 评论 -
【机器管理问题记录】NIS环境没有重新启动导致普通用户访问限制
在集群上/mnt/keepfs/liuyu和/mnt/keepfs/wangfeng的权限以及改成了liuyu,如下图但是liuyu 进目录的时候显示 cannot open directory . :Peimission denied,如下图原因:由于/mnt/keepfs时挂载的存储节点的,上周存储节点重启了,NIS环境没有重新启动解决:原创 2016-12-26 13:09:36 · 1249 阅读 · 0 评论 -
Stale NFS file handle的解决方法
转载自:http://dikar.iteye.com/blog/634862http://www.abc188.com/info/html/wangzhanyunying/jianzhanjingyan/20080417/71458.html Stale NFS file handle的解决方法 早上来到公司,发现有两台server有问题。 因为用df转载 2017-05-04 11:53:23 · 23759 阅读 · 0 评论 -
CentOS下torque集群配置(二)集群中配置NFS实现文件共享
转自 http://blog.csdn.net/dream_angel_z/article/details/44225713==========================================================================要点:文件所在的服务器设置共享文件夹,其它应用服务器挂载该文件夹环境:文件所在服务器:10.10.12.1文件夹为/ifs/da...转载 2017-05-04 10:54:42 · 727 阅读 · 0 评论 -
CentOS下torque集群配置(三)配置NIS统一管理所有linux账户和密码
转自 http://blog.csdn.net/dream_angel_z/article/details/44226055NIS,全称network information Service,网络信息服务,用于管理。 Master服务端配置1.安装NIS需要软件软件# rpm –qa | grep ypbind# rpm –qa | grep yp-tools# rpm –qa | grep ...转载 2017-05-04 10:53:11 · 2051 阅读 · 0 评论 -
vtune挂载及license过期
knl1上vtune不能使用挂载dl1(100.3.13.196)的vtune_amplifier_xe_2017.0.2.478468到knl上 mount -t nfs100.3.13.196:/opt/intel/vtune_amplifier_xe_2017.0.2.478468/opt/intel/vtune_amplifier_xe_2017.0.2.47原创 2016-12-20 10:34:03 · 3487 阅读 · 1 评论 -
【集群管理】普通用户登不进计算节点
普通用户登不进计算节点[root@node1 ~]# su hxdo_ypcall: clnt_call:RPC: Unable to receive; errno = No route to hostYPBINDPROC_DOMAIN:Domain not boundsu: user hx does notexist解决:root目录下mount.sh 断了执原创 2016-12-20 10:19:25 · 2743 阅读 · 0 评论 -
【机器管理问题记录】登录后用户名变化
问题:普通用户liuyu集群中node57上登录时,登录进去显示的用户名是ss原因: 用户冲突了 ss:x:1013:1014:ss:/home/ss:/bin/bash 不知道谁在node57上建立了一个1013的用户 解决:删了就好了原创 2016-12-21 09:30:21 · 514 阅读 · 0 评论 -
【集群管理】新集群管理节点dl1 账户创建及挂载
1 创建账户在dl1上useradd xxxpasswd xxxcd /var/ypmake无密码登录su xxxssh-keygen -t rsa 三次回车ssh-copy-id localhost 2 挂载(1)dl1 往node1-60上挂载 /home, /opt/intel和 /opt/caffeData在dl1原创 2016-12-21 09:56:05 · 1014 阅读 · 0 评论 -
【集群管理】可能遇到的问题及解决方法(持续更新中......)
1.创建账号 首先创建账号:useraddxxx #xxx为用户名passwd xxx 然后cd到nis环境目录,执行make,同步其他节点账号cd /var/ypmake这时候所有计算节点都有该账户 实现ssh无密码登陆(若需要):切换到xxx账户:su xxxssh-keygen-t rsa #回车三次ssh-copy-i原创 2016-12-20 10:14:50 · 1614 阅读 · 0 评论 -
Ubuntu16.04安装Chrome浏览器及解决root不能打开的问题
1. 安装桌面(emmm,不知道是否只执行第二个命令就行)# apt-get install gonme# apt-get install ubuntu-desktop2. 安装Chrome浏览器# wget http://www.linuxidc.com/files/repo/google-chrome.list -P /etc/apt/sources.list.d/# w原创 2018-02-07 09:38:16 · 31781 阅读 · 8 评论