对话系统评价指标

最新推荐文章于 2025-03-13 22:17:25 发布

tiweeny

最新推荐文章于 2025-03-13 22:17:25 发布

阅读量6.8k

点赞数 2

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tiweeny/article/details/81517454

版权

对话系统评价分为客观和主观指标，客观指标包括词重叠和词向量评价，如BLEU、Greedy Matching和Embedding Average。BLEU通过n-gram比较生成语句和参考答案的准确度；Greedy Matching和Embedding Average则基于词向量计算相似性，但难以捕捉长距离语义。主观评价关注流畅度、相关性和多样性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

对话系统的指标分为两大类：客观评价指标和主观评价指标

其中客观评价指标分为词重叠评价指标和词向量评价指标。

【词重叠评价指标】

根据生成语句与参考答案语句之间的词重叠率来进行评价

【词向量评价指标】

通过了解每一个词的意思来判断回复的相关性，词向量是实现这种评价方法的基础。

给每个词分配一个词向量
所有词的词向量矩阵通过拼接成为表示一个句子的句向量，得到生成语句和参考答案语句的句向量
通过余弦距离得到两者相似度进行比较。
- 客观评价指标
- 词重叠评价指标
- BLEU
- ROUGE
- METEOR
- 词向量评价指标
- Greedy matching（贪婪匹配）
- Embedding Average（向量均值法）
- Vector Extrema（向量极值法）
- 困惑度(perplexity)
- 主观评价指标
- 流畅度
- 相关性
- 多样性

BLEU

【思想】

BLEU就是比较模型的生成语句和参考答案语句中的n-gram词组在整个训练语料中共现次数。

该方法认为如果共现次数越多，则越准确，效果越好。

一般采用BLEU-4

【原理】

P n (r, r^) = \sum k min ( h ( k , r ) , h ( k , r i ) ) \sum k h ( k , r i ) B L E U = B P ∙ e x p (

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。