问题背景:
在RedHat7.4,1个P100GPU,4个Power8 core,100G内存的高档机器上运行textsum on TensorFlow,Google。
https://github.com/tensorflow/models/tree/master/research/textsum
愚蠢的本人:
- 目前对 Bazel的了解还不是很深入,而这段代码的运行是需要先用Bazel编译的;
- 通过使用Bazel,这段代码可以无压力在MacPro的小本上运行;
- 但是如果不用Bazel,这里我直接无视了tf.app.flags.DEFINE_XXX的语句,直接把参数写死在了seq2seq_attention.py里面,于是它跑崩了我一台带GTX1060 + Ubuntu16.04的台式机(目前还未修好)。
- 在高档的“问题背景”中描述的环境下,不用Bazel而直接用我写死了的.py脚本跑,直接跑出了CPU运算的既视,大概情况是build graph就需要2小时,然后跑了12h大概只能跑里面大概20000个epochs。
正文:
乖乖在RedHat上面装Bazel,然后用Bazel编译再运行。
Bazel install instruction website: