我又在努力提高这段代码的执行时间。由于计算非常耗时,我认为最好的解决方案是并行化代码。在
我最初是按照this问题中的解释来处理地图的,但后来我尝试了一种更简单的方法,认为我可以找到更好的解决方案。但是我还没有想出任何东西,所以因为这是一个不同的问题,所以我决定把它作为一个新的问题来发表。在
我正在使用python3.4开发Windows平台。在
代码如下:similarity_matrix = [[0 for x in range(word_count)] for x in range(word_count)]
for i in range(0, word_count):
for j in range(0, word_count):
if i > j:
similarity = calculate_similarity(t_matrix[i], t_matrix[j])
similarity_matrix[i][j] = similarity
similarity_matrix[j][i] = similarity
这是calculate_similarity函数:
^{pr2}$
以及对代码的解释:word_count是存储在列表中的唯一单词的总数
t_matrix是一个矩阵,其中包含每对单词的值
输出应该是similarity_matrix,其维数为word_count x word_count,并且包含每对单词的相似性值
把这两个矩阵都保存在内存中是可以的
在这些计算之后,我可以很容易地找到每个单词最相似的单词(或者根据任务需要,前三个相似的单词)
calculate_similarity使用两个浮点表,每个浮点表对应一个单独的单词(每个都是t峎矩阵中的一行)
我使用的是13k个单词的列表,如果计算正确,系统上的执行时间将是几天。所以,任何能在一天内完成任务的东西都会很棒!在
也许只有将numerator和{}的计算并行化,才可能有显著的改进。在