模型会按照评分的从高到低,挑选K个回答。如果正确的回答在这K个当中,我们就认为这条测试样本预测正确。显然,K越大,事情越简单。
首先,对于单一个查询图片,在系统中搜索它的k个最近邻的图片,如果返回的k张图片中有至少一张图片和查询图片属于同一个类,则该次查询的score记为1,否则记为0。Recall@k则是测试集中所有查询图片score的平均.
from bottleneck import argpartition
def evaluate_emb(emb, labels):
"""Evaluate embeddings based on Recall@k."""
d_mat = get_distance_matrix(emb) # N*N 距离矩阵
d_mat = d_mat.asnumpy()
labels = labels.asnumpy()
names = []
accs = []
for k in [1, 2, 4, 8, 16]:
names.append('Recall@%d' % k)
correct, cnt = 0.0, 0.0
for i in range(emb.shape[0]):
d_mat[i, i] = 1e10
nns = argpartition(d_mat[i], k)[:k] # 获取k近邻的index
if any(labels[i] == labels[nn] for nn in nns):
correct += 1
cnt += 1
accs.append(correct/cnt)
return names, accs