事情的起由
集群断电需要重启,但重启之后发现之前能跑并行(SMP或DMP版本)的程序全部报废,报错如下:
主要关键词是invalid memory和/lib64/错误,语句多种。期间尝试重新编译源码,虽然可以编译成功生成可执行文件,但运行时仍然提示上述错误。
解决思路
首先,尝试“未有任何代码改动”的标准源代码(19或20版本),编译SMP/DMP版本和运行成功;再次,对曾经改动过的子程序逐个测试,最终定位到DES_USR_VAR。
/model/des中的 calc_force_dem.f 程序在第一行就调用了 calc_collision_wall_mod.f 来计算颗粒与边壁的碰撞力,而原来对DES_USR_VAR的编号是从 calc_force_dem.f 里开始,即1, 2, …, n,然后再在 calc_collision_wall_mod.f 中继续对DES_USR_VAR进行编号n+1, n+2, …, n + m。所以对上述DES_USR_VAR编号进行了纠正,即将calc_collision_wall_mod.f 中的DES_USR_VAR从1开始排序编号,因为实质上它最先被调用,再继续对 calc_force_dem.f 中的DES_USR_VAR进行编号。
问题解决,但为什么集群重启后就会报错未知。给大家提供一个解决思路。