马总的博客:http://blog.sina.com.cn/casscf
每月1号记得去冲空调和换过滤网
1.管理日志
- 2013年11月份曙光高速存储节点多次无故断电,工程师多次上门没能解决,其中一次将主板进行了更换,也没有解决问题,最后将机器送到北京去进行检测,最终得到的结论是内存出了问题。据陶宁讲,很久之前也有一批机器莫名其妙地内存插上去就死机。
- 2014年1月15日上午化学楼停电。浪潮III未按正确开机顺序进行,导致/home没有挂载上,用批处理命令将所有节点重启,解决问题。正确的开机顺序:存储、主节点、子节点。曙光按电源开关后有以下节点没有开机成功:5,6,7,26,32,33,47,48,下次注意一下;新浪潮没有开机成功的有:1,6,21,27,30,31,39,50,53,59,61,63
- 曙光cu13年前不能挂载public2,因为之前ib卡坏过,我猜测也是这个原因,年后喊工程师过来检测,换插槽换线都没能解决问题,说明是ib卡坏了,于是2月17号封畅过来换了一个。后来cu09又连不上了,封畅又过来看了一下,判断是网卡坏了,将网线换到另一接口上就解决了,网卡坏了实际就是主板坏了。曙光客服在给我打回访电话时我顺便提到了这个事,于是后来封畅又打电话给我说有空让我报修一下,来把主板换了,好无语。。。。
- 2014年3月1号,袁相爱打电话给我说她和田子奇的帐号不能用高斯了,我看了一下,出现了-bash: /opt/Chem_soft/g09/g09.sh: Permission denied,应该是权限的问题,由于高斯软件的使用需要将用户都加入高斯组,所以就查看了一上用户组的情况,vi /etc/group,结果发现他们两人不在高斯组里,于是手动把他们加进去了,可然后还是不行,所以猜测是不是要把g09目录的权限设置一下,请教王亚强后把这个目录的权限设为了770,看了一下好像可以用了,也许是我幻觉了。第二天袁相爱又告诉我不能用了,后来就没辙了,马师兄也没有什么办法。正好王亚强和封畅要去南工大,说顺路就来帮我看看,结果发现是NIS的问题,将NIS同步一下之后问题就解决了。看来得好好学习一下NIS服务了。
- 2014年3月31号化学楼停电,曙光开机后又出现了和上次一样的情况,就是普通用户无法看到public2下面的文件
问题是public2的NIS没有开,可以登录cu102,执行"/etc/init.d/ypbind restart"解决,强哥建议我可以在主节点的rc.local文件中加入“ssh cu102 "/etc/init.d/ypbind restart"”这句就可以了。还有,正确的开机顺序是“先开磁盘阵列和102 101再开mu01 再开其他的”。
- 2014年5月,三楼机房空调两次没有hold住,导致机房温度极高,曙光和浪潮III的机器均出现报警。今天(6.4)新安装一台空调,将机器全部开启。但开机后出现identifier removed的提示,无法看到work_dir下面的文件,记得王亚强曾经教过我解决办法,要将NIS服务打开。具体是登录mds01节点,不过要用ssh,rsh不行,然后执行
service ypserv restart
service yppasswdd restart
这样就可以了。同时开机后发现无法登陆cu20、21、22-25,问题也是这些机器的NIS服务没有打开,执行
/etc/init.d/ypbind start
解决。不过cu32貌似没有开启成功,晚上去机房看一下是怎么回事。
2. 常用命令
- 修改登录提示:登录提示在 /etc/bashrc.sftp 或者 /etc/bashrc.notice 里面修改
- 查看当前目录下各目录的大小:du -h --max-depth=1
查看文件夹信息,并按修改时间排序:ls -lrt
- 批处理脚本:/root/clusterfork.sh 执行方式:./clusterfork.sh 1(起始节点号) "command"
附批处理脚本:
*********************************************************************************
#!/bin/bash
# cluster deploy shell script
declare -i loopindex
loopindex=$1
command=$2
if [ -z "$command" ]; then
echo "Usage: ./clusterfork.sh <command>"
exit
fi
while (( $loopindex<52 ))
do
#if [ $loopindex -eq 22 ];then
#loopindex=$loopindex+1
#fi
if [ $loopindex -lt 10 ]; then
tmpstring="cu0$loopindex"
else
tmpstring="cu$loopindex"
fi
echo "Command in host : ********** $tmpstring **********"
ssh $tmpstring $command
loopindex=$loopindex+1
done
************************************************************************************
- 硬盘挂载:可以先进行分区(也可不进行,直接格式化):fdisk /dev/sdb
m for help,可根据提示进行操作,结束后记得按w,保存并退出。
然后将盘格式化:mkfs -t ext4 /dev/sdb 也可不输入文件格式,后面mount的时候再加。
挂载:mount [-t 文件系统] [-L label名] [-o 额外选项,如rw、ro等] /dev/*** 挂载点
小插曲:2014年1月16日,lsqc08的固态硬盘老是出现read-only file system的提示,后来以为是硬盘坏了,就换了一块,但是换了一块却看不到这个设备,后来拆开机箱看是里面有根线接反了,相同颜色的要和相同颜色的对在一起,以后在接线的时候要注意。
- 曙光远程控制开关机
ipmitool -I lan -H 10.0.0.5 -U ADMIN -P ADMIN chassis power on %实行开机操作
ipmitool -I lan -H 10.0.0.5 -U ADMIN -P ADMIN chassis power off %实行关机操作
ipmitool -I lan -H 10.0.0.5 -U ADMIN -P ADMIN chassis power status %检查机器电源状态
3.曙光帐户信息
曙光上的个别用户出现用户日期到期的情况(目前有你们组的徐莉娜),请给予修改。
采用的指令为 usermod 指令,需要加 expire 参数, 具体你自己查阅一下。
用法:chage [选项] 用户名
选项:
-d, --lastday 最近日期 将最近一次密码设置时间设为“最近日期”
-E, --expiredate 过期日期 将帐户过期时间设为“过期日期”
-h, --help 显示此帮助信息并退出
-I, --inactive 失效密码 将因过期而失效的密码设为“失效密码”
-l, --list 显示帐户年龄信息
-m, --mindays 最小天数 将两次改变密码之间相距的最小天数设为“最小天数”
-M, --maxdays 最大天数 将两次改变密码之间相距的最大天数设为“最大天数”
-W, --warndays 警告天数 将过期警告天数设为“警告天数”
常用方法:
[root@bigner ~]# chage -d 3000-08-08 forker
[root@bigner ~]# chage -M 5
[root@bigner ~]# chage -E 3000-08-08 forker
4. Inspur III开帐户命令
./myuseradd_itcc 组名 用户名
****************************************************************************************
附:myuseradd_itcc脚本的操作说明
#!/bin/bash % 切换到 bash-shell
useradd -g $1 -G gaussian $2 % 添加属于组$1和组gaussian的用户$2
if [ $? != 0 ]
then
exit 1
fi
echo "不告诉你" |passwd $2 --stdin % 初始密码
gpasswd -a $2 user
cd /var/yp % 更新NIS服务
make
echo "
NIS user $2 has been added.
----------------------------------------------------
passwd:不告诉你
home: /home/$2
----------------------------------------------------"
su $2 -c "/opt/inspur/ssh/ssh-configure/step1.exp $2" % 此两段为节点间ssh免密码登录(mpi用到)
echo " step1.exp is ok.
------------------------------------- ########################50% ----------------------------------------------"
su $2 -c "/opt/inspur/ssh/ssh-configure/step2.exp $2 不告诉你"
echo "
step2.exp is ok.
mow you can use ssh for $2
---------------------------------------------------- ################################################100% ----------------------------------------------------"
mkdir -p /lustre/work_dir/$2 % 挂载缓存盘到用户根目录
chown $2:$1 /lustre/work_dir/$2
su $2 -c "ln -s /lustre/work_dir/$2 /home/$2/work_dir"
sleep 1s;
cat /root/bashrc.config > /home/$2/.bashrc % 软件以及编译器配置文件(bashrc.config)写入到各个用户配置文件
chgrp $1 /home/$2/.bashrc
chown $2 /home/$2/.bashrc
****************************************************************************************
5. ifort编译器安装完后的bash书写提示
To get started using Intel(R) Composer XE 2013 Update 3 located in
/opt/intel/composer_xe_2013.3.163:
- Set the environment variables for a terminal window using one of the following
(replace "intel64" with "ia32" if you are using a 32-bit platform).
For csh/tcsh:
$ source install-dir/bin/compilervars.csh intel64
For bash:
$ source install-dir/bin/compilervars.sh intel64
To invoke the installed compilers:
For Fortran: ifort
To get help, append the -help option or precede with the man command.
- To view a table of getting started documents:
install-dir/Documentation/en_US/get_started_lf.htm
install-dir/Documentation/ja_JP/get_started_lf.htm
6.集群开关机
- 用命令关机之后记得去机房检查一下,是否全部关闭,防止有些没有关闭,导致机房温度过高。
- 每次需将所有节点,包括主节点和存储都关闭,并关闭空调。
- 正确的开机顺序:存储、主节点、子节点。
- 开机之后可用以下语句检测哪些节点已经正确开启
for i in `seq 1 63`; do ssh 192.168.0.$i "hostname"; done
【转载】gaussview for Linux的安装
1 从纳米盘下载gaussview3.09 for Linux到个人的目录 # /home/xxx
2 解压下载的文件 tar -zxvf gv*.taz
3 修改init_gv.bash中的 export GV_DR='/home/xxxx/gv' # xxx改为gv所在目录
4 在终端输入: cat ~/gv/init_gv.bash >> ~/.bashrc 然后 source .bashrc
5 在终端输入:gv & 或者 gview & ,即可使用gaussview
6 如果出错,比如少了*.so.*文件,可以从rpm.pbone.net搜索相关rpm文件,下载后使用
rpm2cpio *.rpm | cpio -div 解压缩rpm文件,找到相关的*.so文件, sudo cp *.so.* 文件到/usr/lib
7 重复5、6直到能够成功运行gausview为止。
tips:运行gv时可能弹出找不到gaussian03的对话框,把gpath.txt文件中的目录修改为g03所在绝对目录,这样就不再弹出找不到gaussian03的对话框了。
From强哥:openmpi安装