说到NDCG就需要从CG开始说起。
CG(cumulative gain,累计增益)可以用于评价基于打分/评分的个性推荐系统。假设我们推荐k个物品,这个推荐列表的CGk计算公式如下:
C
G
k
=
∑
i
k
r
e
l
i
CG_k=\sum _i^k rel_i
CGk=i∑kreli.
r
e
l
i
rel_i
reli 表示第
k
k
k个物品的相关性或者评分。假设我们共推荐
k
k
k个文档,
r
e
l
i
rel_i
reli可以是用户对第
i
i
i部电影的评分。
比如豆瓣给用户推荐了五部电影,
M 1 , M 2 , M 3 , M 4 , M 5 , M1,M2,M3,M4,M5, M1,M2,M3,M4,M5,
该用户对这五部电影的评分分别是
5, 3, 2, 1, 2
那么这个推荐列表的
C
G
CG
CG等于
C
G
5
=
5
+
3
+
2
+
1
+
2
=
13.
CG_5=5+3+2+1+2=13.
CG5=5+3+2+1+2=13.
C
G
CG
CG没有考虑推荐的次序,在此基础之后我们引入对物品顺序的考虑,就有了
D
C
G
DCG
DCG(discounted CG),折扣累积增益。公式如下:
D
C
G
k
=
∑
i
=
1
k
2
rel
i
−
1
log
2
(
i
+
1
)
.
DCG_k=\sum_{i=1}^k \frac{2^{\text{rel}_i}-1}{\log_2(i+1)}.
DCGk=∑i=1klog2(i+1)2reli−1.
比如豆瓣给用户推荐了五部电影,
M 1 , M 2 , M 3 , M 4 , M 5 , M1,M2,M3,M4,M5, M1,M2,M3,M4,M5,
该用户对这五部电影的评分分别是
5, 3, 2, 1, 2
那么这个推荐列表的
D
C
G
DCG
DCG等于
D
C
G
5
=
2
5
−
1
log
2
2
+
2
3
−
1
log
2
3
+
2
2
−
1
log
2
4
+
2
1
−
1
log
2
5
+
2
2
−
1
log
2
6
=
31
+
4.4
+
1.5
+
0.4
+
1.2
=
38.5
DCG_5=\frac{2^5-1}{\log_2 2}+\frac{2^3-1}{\log_2 3}+\frac{2^2-1}{\log_2 4}+\frac{2^1-1}{\log_2 5}+\frac{2^2-1}{\log_2 6}=31+4.4+1.5+0.4+1.2=38.5
DCG5=log2225−1+log2323−1+log2422−1+log2521−1+log2622−1=31+4.4+1.5+0.4+1.2=38.5
D
C
G
DCG
DCG没有考虑到推荐列表和每个检索中真正有效结果个数,所以最后我们引入
N
D
C
G
NDCG
NDCG(normalized discounted CG),顾名思义就是标准化之后的
D
C
G
DCG
DCG。
N
D
C
G
k
=
D
C
G
k
I
D
C
G
k
NDCG_k=\frac {DCG_k} {IDCG_k}
NDCGk=IDCGkDCGk
其中
I
D
C
G
IDCG
IDCG是指ideal
D
C
G
DCG
DCG,也就是完美结果下的
D
C
G
DCG
DCG。
继续上面的例子,如果相关电影一共有7部
M
1
,
M
2
,
M
3
,
M
4
,
M
5
,
M
6
,
M
7
M1,M2,M3,M4,M5,M6,M7
M1,M2,M3,M4,M5,M6,M7
该用户对这七部电影的评分分别是
5, 3, 2, 1, 2 , 4, 0
把这7部电影按评分排序
5, 4, 3, 2, 2, 1, 0
这个情况下的完美DCG是
I
D
C
G
5
=
2
5
−
1
log
2
2
+
2
4
−
1
log
2
3
+
2
3
−
1
log
2
4
+
2
2
−
1
log
2
5
+
2
2
−
1
log
2
6
=
31
+
9.5
+
3.5
+
1.3
+
1.2
=
46.5
IDCG_5=\frac{2^5-1}{\log_2 2}+\frac{2^4-1}{\log_2 3}+\frac{2^3-1}{\log_2 4}+\frac{2^2-1}{\log_2 5}+\frac{2^2-1}{\log_2 6}=31+9.5+3.5+1.3+1.2=46.5
IDCG5=log2225−1+log2324−1+log2423−1+log2522−1+log2622−1=31+9.5+3.5+1.3+1.2=46.5
所以
N
D
C
G
5
=
D
C
G
5
I
D
C
G
5
=
38.5
46.5
=
0.827
NDCG_5 = \frac{DCG_5}{IDCG_5}=\frac{38.5}{46.5}=0.827
NDCG5=IDCG5DCG5=46.538.5=0.827
NDCG是0到1的数,越接近1说明推荐越准确。
下图为两个变量的概念解析: