我刚发现,我写的一个算例,如果要把我现在手头上的这个数据集算完的的话,我至少要开3台i7-4790+8G的台式机,而且每台台式机的8个线程全开、并行计算,这样不眠不休算上至少23天大概能算完……
两条路,要么整个几十台机子,以空间省时间,要么改程序,肝到吐。
2018.03.14 update
一共17个数据集,每个数据集100个文件。我开了17台机子,每台机子8个线程全开,每个线程每次跑1个文件。这样一次能跑8个文件,耗时45分钟左右。通过这个方法,平均一个数据集的总运行时间从3.125天缩短为13小时。这个结果,我还是挺满意的。
17个数据集总体耗时也只有13个小时。这是教科书式的硬件换时间例子。记录在此,以表纪念。
#EOF