评价语言模型性能的方式
某个模型的交叉熵或困惑度越小,该模型的效果越好。
- 交叉熵
- 困惑度
交叉熵 (cross-entropy):
计算公式:
H
p
(
T
)
=
−
1
W
T
l
o
g
2
p
(
T
)
H_p (T) = -\frac{1}{W_T} log_2 p(T)
Hp(T)=−WT1log2p(T)
其中,
W
T
W_T
WT 是文本
T
T
T 的长度,以词为单位进行度量(包含句首标志与句尾标志);
p
(
T
)
p(T)
p(T) 为待衡量模型给出的关于文本
T
T
T 的概率。
解释:利用与模型 p ( w i ∣ w i − n + 1 i − 1 ) p(w_i | w_{i-n+1}^{i-1}) p(wi∣wi−n+1i−1) 有关的压缩算法对数据集合中的 W T W_T WT 个词进行编码,每一个编码所需要的平均比特位数。
困惑度 (perplexity):
计算公式:
P
P
T
(
T
)
=
2
H
p
(
T
)
PP_T (T) = 2^{H_p (T)}
PPT(T)=2Hp(T)
其中,
H
p
(
T
)
H_p (T)
Hp(T) 是交叉熵。
解释:模型分配给测试集 T T T 中每一个词汇的概率的几何平均值的倒数