推荐系统常用评价指标

最新推荐文章于 2022-11-04 19:40:27 发布

EdisonLeejt

最新推荐文章于 2022-11-04 19:40:27 发布

阅读量8.8k

点赞数 14

分类专栏：推荐系统文章标签：推荐系统评价指标机器学习 ndcg 准确率

本文链接：https://blog.csdn.net/edisonleeee/article/details/89405343

版权

推荐系统专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近在做一些推荐系统方面的研究工作，对于推荐系统的评价指标总是搞得很乱，现在正好用博客整理下，免得每次都要上网查

1.Rating Prediction

对于rating prediction任务，一般都是根据原有的评分数据，利用矩阵分解等方法去拟合原评分，使得优化后的模型可以去预测新的评分，这里就要衡量你预测的评分和实际评分的差异了，指标也很简单，分为RMSE和MAE。

（1）RMSE

$\operatorname{RMSE}=\sqrt{\frac{1}{|\mathcal{T}|} \sum_{(u, i) \in \mathcal{T}}\left(\hat{r}_{u i}-r_{u i}\right)^{2}}$
其中 $\mathcal{T}$ 是测试集， $\hat{r}_{u i}$ 是模型预测出来的评分， ${r}_{u i}$ 是测试集的实际评分。

（2）MAE

$$\mathrm{MAE}=\frac{1}{|\mathcal{T}|} \sum_{(u, i) \in \mathcal{T}}\left|\hat{r}_{u i}-r_{u i}\right|$$

RMSE和MAE实际上差别不大的指标，在Rating任务中比较常用

2.Ranking Prediction

对于Ranking prediction任务，一般是将其化为二分类任务：有评分为1，无评分为0（这是比较粗糙的做法），然后对每个用户取其偏好最高的K个商品（TOP-K）推荐。指标看起来也“复杂”很多，分别有Rrecision@K，Recall@K，MAP，MRR，NDCG

（1）Precision@K

$\frac{\left|R e l_{u} \cap R e c_{u}\right|}{\left|R e c_{u}\right|}$
其中 $R e l_{u}$ 表示与用户 $u$ 相关的商品集（测试集）， $R e c_{u}$ 表示推荐给用户的前K个列表，二者的交集除以 $R e c_{u}$ 的集合元素个数（其实就是K），得到Precision@K。一般是算出每个用户的Precision@K，然后取平均值。

#计算每个用户的Precision@K值，最后还要取平均值
    def cal_precision_at_k(k, rankedlist, test_matrix):
	    test_set = set(test_matrix)
	    rank_set = set(rankedlist)
	    hit = len(test_set & rank_set)
	    return float(hit / k)

（2）Recall@K

$\frac{\left|R e l_{u} \cap R e c_{u}\right|}{\left|R e l_{u}\right|}$
其中 $R e l_{u}$ 表示与用户u相关的商品集（测试集）， $R e c_{u}$ 表示推荐给用户的前K个列表，二者的交集除以 $R e l_{u}$ 中元素的个数（也就是测试集中用户u评过分的商品数），得到Recall@K。一般是算出每个用户的Recall@K，然后取平均值。

#计算每个用户的Recall@K值，最后还要取平均值
def cal_Recall_at_k_for_each_user(k, rankedlist, testlist):
    test_set = set(test_matrix)
    rank_set = set(rankedlist)
    hit = len(test_set & rank_set)
    return float(hit / len(test_set))

（3）MAP(Mean Average Precision，平均准确率)

$P=\frac{\sum_{u \in U^{* e}} A P_{u}}{\left|\mathcal{U}^{t e}\right|}$
首先需要计算每个用户AP（Average Precision)
$P_{u}=\frac{1}{\left|\mathcal{I}_{u}^{t e}\right|} \sum_{i \in \mathcal{I}_{u}^{t_{e}}} \frac{\sum_{j \in \mathcal{I}_{u}^{t_{u}}} \delta\left(rank_{u j}<rank_{u i}\right)+1}{rank_{u i}}$
公式看起来有点吓人，其中 $rank_{u i}$ 表示推荐列表中物品 i 的排序位置， $rank_{u j}<rank_{u i}$ 表示在对用户 $u$ 的排序列表中物品 $j$ 的排序位置在物品 $i$ 的前面。假设你推荐的TOP-K商品中，有N个命中了（与测试集的交集为N），其实就是 $P_{u} = \frac{\sum_{i \in I^{* u}} i在推荐列表中的排名}{\mathcal i在测试集中的排名}$ 其中 $I^{* u}$ 是用户u的推荐列表中命中的元素集合。MAP就是所有用户AP的平均值。 $\mathrm{MAP}=\frac{1}{|U|} \sum_{u=1}^{|U|} {AP_u}$ 还是不理解？上代码：

#这个只是计算每个用户MAP的代码，最后还要对整个取平均值
def cal_map_for_each_user(rankedlist, testlist):
    ap = 0
    s = set(testlist)
    #命中的元素在testlist中的排名
    hits = [ idx for idx, val in enumerate(rankedlist) if val in s ] 
    count = len(hits)
    for i in range(count):
        ap += (i+1) / (hits[i] + 1)
        
    if count != 0:
        map = ap / count
    else:
    	map = 0

    return map

（4）MRR(Mean Reciprocal Rank, 平均倒数排名)

$\mathrm{MRR}=\frac{1}{|Q|} \sum_{i=1}^{|U|} \frac{1}{\operatorname{rank}_{i}}$
其中 $∣ U ∣$ 是用户的个数， $rank_i$ 是对于第 $i$ 个用户，推荐列表中第一个在测试集结果中的商品所在的排列位置，计算起来也十分简单：

#这个也是只是计算每个用户的MRR，最后还要取均值
    if count != 0:
        mrr = 1 / (hits[0] + 1)
    else:
    	mrr = 0

(5) NDCG@K(Normalized Discounted Cummulative Gain@K)

NDCG应该是Ranking指标里面最复杂的了，讲NDCG应该先从CG,DCG讲起

CG@K(Cummulative Gain，累计增益)

$G_{k}=\sum_{i=1}^{k} r e l_{i}$
其中， $rel_i$ 表示处于位置 $i$ 的推荐结果的相关性，在推荐系统中是命中 $rel_i$ 为1，不命中 $rel_i$ 为0。 $k$ 是TOP-K中的K。

DCG@K(Discounted Cummulative Gain)

$G_{k}=\sum_{i=1}^{k} \frac{2^{r e l_{i}}-1}{\log _{2}(i+1)}$ ，推荐系统中，命中则 $2^{r e l_{i}}-1$ 为1，不命中则 $2^{r e l_{i}}-1$ 为0。 $D C G$ 引入了位置因素，比 $C G$ 更有价值。

IDCG@K(Ideal DCG)

$G_{k}=\sum_{i=1}^{k} \frac{1}{\log _{2}(i+1)}$
$k$ 是TOP-K中的K。 $I D C G$ 是理想化的 $D C G$ ，因此 $D C G$ 的值介于[0, $I D C G$ ]之间。

    for i in range(k):
        idcg_k += 1 / math.log(i + 2, 2)

NDCG@K (Normalized Discounted Cummulative Gain@K)

$G_{u} @ k=\frac{D C G_{u} @ k}{I D C G_{u}}$
终于轮到 $N D C G @ K$ 了，它的值就是 $D C G$ 与 $I D C G$ 之间的比值，介于[0,1]之间。
因此所有用户的平均 $N D C G @ K$ 为： $k=\frac{\sum_{u \in \mathcal{U}^{te} N D C G_{u} @ k}}{\left|\mathcal{U}^{te}\right|}$
其中， $U^{te}$ 为测试集中的所有用户。

#计算每个用户的NDCG@K值，最后还要取平均值
def cal_ndcg_at_k_for_each_user(k, rankedlist, testlist):
    idcg_k = 0
    dcg_k = 0
    if len(testlist) < k: k = len(testlist)
    for i in range(k):
        idcg_k += 1 / math.log(i + 2, 2)
        
    s = set(testlist)
    hits = [ idx for idx, val in enumerate(rankedlist) if val in s]
    count = len(hits)

    for i in range(count):
        dcg_k += 1 / math.log(hits[i] + 2, 2)

    return  float(dcg_k / idcg_k)

（6）NDCG(Normalized Discounted Cummulative Gain)

既然已经介绍了 $N D C G @ K$ ，为啥还要单独介绍一个 $N D C G$ 呢，二者除了一个 $@ K$ 有啥区别？
主要是看有的论文是用 $N D C G @ K$ ，有的是用 $N D C G$ ，因此两个都记下来好了，二者的区别主要是计算 $I D C G$ 的不同（ $D C G$ 计算是一样的）

IDCG(Ideal DCG)

$G_{n}=\sum_{i=1}^{n} \frac{1}{\log _{2}(i+1)}$
其中n是用户 $u$ 的测试集长度，这样一算 $I D C G$ 变大了。然后 $N D C G$ 计算是公式一样的：
$=\frac{\sum_{u \in \mathcal{U}^{te} N D C G_{u} @ k}}{\left|\mathcal{U}^{te}\right|}$
其中， $U^{te}$ 为测试集中的所有用户。