概述
对话系统的指标分为两大类:客观评价指标和主观评价指标
其中客观评价指标分为词重叠评价指标和词向量评价指标。
【词重叠评价指标】
根据生成语句与参考答案语句之间的词重叠率来进行评价
【词向量评价指标】
通过了解每一个词的意思来判断回复的相关性,词向量是实现这种评价方法的基础。
- 给每个词分配一个词向量
- 所有词的词向量矩阵通过拼接成为表示一个句子的句向量,得到生成语句和参考答案语句的句向量
通过余弦距离得到两者相似度进行比较。
- 客观评价指标
- 词重叠评价指标
- BLEU
- ROUGE
- METEOR
- 词向量评价指标
- Greedy matching(贪婪匹配)
- Embedding Average(向量均值法)
- Vector Extrema(向量极值法)
- 困惑度(perplexity)
- 主观评价指标
- 流畅度
- 相关性
- 多样性
BLEU
【思想】
BLEU就是比较模型的生成语句和参考答案语句中的n-gram词组在整个训练语料中共现次数。
该方法认为如果共现次数越多,则越准确,效果越好。
一般采用BLEU-4
【原理】
Pn(r,r^)=∑kmin(h(k,r),h(k,ri))∑kh(k,ri)BLEU=BP∙exp(