（八）结果验证

Simonsdu

于 2022-06-12 10:12:27 发布

阅读量817

点赞数 1

分类专栏：基于文本的QA问答系统文章标签：算法人工智能机器学习 python nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Simonsdu/article/details/125242372

版权

基于文本的QA问答系统专栏收录该内容

9 篇文章 4 订阅

订阅专栏

文章目录

评价指标

选用的都是人工智能专业大三上学期信息检索课程中学到的几种评价方法。

NDCG

归一化折损累计增益。NDCG来自于DCG，而DCG来源于CG。

CG：推荐系统中CG表示将每个推荐结果相关性的分值累加后作为整个推荐列表的得分。

Topk结果公式如下（rel表示位置i的推荐结果的相关性，k表示推荐列表的大小）

在这里插入图片描述

DCG: CG没有考虑每个推荐结果处于不同位置对整个推荐结果的影响。因此DCG在CG的基础上加入了位置信息。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WR0ys0fv-1654999509147)(file:///D:/TEMP/msohtmlclip1/01/clip_image002.png)]

NDCG：在DCG的基础上对结果进行归一化。

在这里插入图片描述

MAP

Mean Average Precision，信息检索的平均正确率（Q 表示query的数量，AveP表示每条query的平均准确率）。

在这里插入图片描述

Precision、Recall

精确率和召回率，不做赘述。

BM25粗排

在基于深度学习的信息检索任务中，由于检索任务数据量巨大，而深度学习方法相对于传统方法时间消耗更大，因此我们通常会先使用传统的BM25算法初步获取与查询较为相关的文档，相当于降低数据集规模，然后再使用深度学习方法进行检索。大多数主流数据集都会提供对于的BM25粗排后的结果。本项目也使用这种思路，首先读取数据集中提供的关于该查询的BM25粗排结果，然后在结果集上进行检索与排序。

Trec-covid

本项目需要在大规模数据集中验证方法的有效性，由于多数信息检索相关数据集都是英文数据集，因此首先选择使用英文数据集来明确数据与处理流程和评价指标。

Trec-covid是一个关于COVID-19相关医学文献的数据集，它遵循Trec规范，基于CORD-19构建。CORD-19包含各种和COVID-19相关的文献内容，同时有部分与SARS 和MERS相关的内容。

下载链接：

https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/trec-covid.zip

文件结构如下：

在这里插入图片描述

其中corpus是文章集合，queries是查询集合，qrels中的test.tsv文件指明了queries和corpus的匹配关系。

查阅资料得知，可以借助BEIR库来完成信息检索领域的多种数据测试工作。但是在安装BEIR时遇到了一些小问题。

最新版的BEIR依赖于pytrec-eval，在安装pytrec-eval时出现如下error：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5MKIZPsh-1654999509150)(file:///D:/TEMP/msohtmlclip1/01/clip_image009.png)]

完整错误如下（需要回溯错误方法）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sTNI2zRP-1654999509150)(file:///D:/TEMP/msohtmlclip1/01/clip_image011.png)]

从错误内容中得到是该路径非绝对路径，问题在于该路径是哪个方法使用的，以及为什么在安装过程中出现该路径。该路径以”/”开头，很类似于linux系统中的绝对路径，因此可以猜测可能是这个库在windows系统上没有改写某个方法。

在git上clone下pytrec-eval的源码，并且回溯错误方法，注意到在编译源代码时，sdist.py中的方法需要读取源码的SOURCE.txt文件，打开pytrec-eval中的SOURCE.txt，内容如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JIsk8nKE-1654999509150)(file:///D:/TEMP/msohtmlclip1/01/clip_image013.png)]

可以看到第一个路径就是错误信息中报错的路径。

并且定位到报错的方法是utils.py中的convert_path（）方法。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8QDJn2tG-1654999509151)(file:///D:/TEMP/msohtmlclip1/01/clip_image015.png)]

不难看出，该方法遇到所有具有linux风格的路径时会报错。我尝试了三种解决方法：

1、修改SOURCE.txt文件，只保留“.c”文件名。

2、修改utils.py(很危险的行为，但是很有用)。注释掉这一行关于绝对路径的判断，一定记得安装成功后取消注释。

3、修改utils.py，添加关于“/”开头路径的处理方法，将其转化为windows风格的路径。

安装成功后可以借助BEIR库下载数据集和进行数据处理。

在该数据集上运行了十小时。

在这里插入图片描述

结果如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QjQcsN7i-1654999509152)(file:///D:/TEMP/msohtmlclip1/01/clip_image018.png)]

题外话：trec-covid属于相对较小的数据集，这时候就应该意识到在更大规模的数据集上获取实验结果的成本很高，不然后续就不会在寻找合适的中文数据集上花费两天的时间最后无功而返。

MMARCO

MMARCO是在人工参与下对MS MARCO数据集的翻译结果。（https://arxiv.org/abs/2108.13897）。MMARCO-Chinese可用于中文信息检索任务的训练与测试。

文件结构如下：

在这里插入图片描述

其中corpus是文章集合，queries是查询集合，qrels中的test.tsv文件指明了queries和corpus的匹配关系（用于测试），train.tsv文件用于训练模型。

数据处理后使用GPT2-chinese作为预训练模型。

运行时间如下：

在这里插入图片描述

由于资源限制，本项目没有获取在该数据集上的结果。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
（八）结果验证

评价基于预训练模型的检索系统性能
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。