一、为什么需要IR测试数据集
兵马未动,粮草先行。对于做搜索以及搜索提升这件事来说,测试数据集就是粮草。找到一个高质量的测试数据集是非常重要的,它可以用来当作一个标杆,或者说当作一把尺子,来衡量检索系统的好坏。
往往构建一个好的测试集,在质量和熟练上很难取舍。高质量的数据,通常需要人工标注,需要大量的人力物力(就是说很花钱)。高质量,测试书记集大,适合自己的场景,往往是第一要求。在我看来,测试数据集应该大于100w,小于300万,测试问题应该在30w左右。因为数据体量再大一些,单独跑一轮测试,可能需要的时间会很长。
所以在找测试数据集的时候,应该优先考虑开源的测试数据集合。应该覆盖英文,中文等不同的场景。其次是再构造少量的完美贴合自己业务的数据,效果会更好一些。例如客户会给我们提供一个验收的测试集,虽然量不多,但是足够可以验证我们的系统能力。
信息检索 (IR) 测试数据集是信息检索系统、搜索引擎和自然语言处理应用的评估和基准的关键组成部分。一份优质的IR测试数据集可用于验证算法的有效性、比较不同方法的性能,并帮助研究人员和开发者理解信息检索技术在实际场景中的应用表现。
二、都有哪些好用IR测试数据集?
2.1 最近我调研的,质量比较好的
2.1.1 我的知识来源
最近一周在调研开源的测试数据集。之前看了很多的召回相关的论文,百分之八十的文章中都使用 MS MARCO 和 TREC 这两个测试数据集来验证他们的效果。我也看了这两个测试数据集的论文,确实质量都还不错。
其次,我们也迫切的需要一个中文的测试数据集,毕竟是在国内使用。所以看到了表新的T2Ranking这个测试数据集。
从论文中获取知识,特别是从新鲜出炉的论文中,去获取知识,是更有意义的。只是难度更大一些,时间成本更高一些。(就看发量能不能扛得住了)
2.1.2 测试数据更详细的内容
相应的都有论文,来说明数据四如何构建的。
IR 召回测试数据集(英文测试集)——MS MARCO-CSDN博客
国外用来做IR比赛的测试数据集,比赛已经持续了5年时间!
TREC 2023 Deep Learning Track Guidelines-CSDN博客
中文测试数据集
IR 召回测试数据集(中文测试集)——T2Ranking-CSDN博客
2.1.3 其他一些英文测试数据集
以下是IR测试数据集领域的一个概览:
1. TREC (Text REtrieval Conference) 数据集: TREC由美国国家标准与技术研究院(NIST)和美国国防部高级研究计划局(DARPA)组织。它是信息检索领域最著名和最广泛使用的测试集之一,其包括了多种不同类型的信息检索任务,如新闻搜索、法律文献搜索、网络搜索等。
2. Reuters Corpus: Reuters Corpus是一套广泛使用的文本分类和信息检索研究的数据集,包括了大量的新闻报道,这些报道已经过分类并标记了主题。
3. INEX (Initiative for the Evaluation of XML Retrieval): INEX提供了一个XML文档的大型数据集,特别适合于用于结构化文档的信息检索系统的研究。
4. WebTrack数据集: TREC的WebTrack提供了真实的网页集合,并且针对网页搜索和分析的信息检索系统进行了特别的注释和评分。
5. ClueWeb数据集: ClueWeb包含了大量网络页面的数据集,它是用来研究网络搜索和信息检索的不同算法,尤其是在面对动态变化和大数据环境时。
6. MS MARCO (Microsoft Machine Reading Comprehension): MS MARCO是一个公开的数据集,由Microsoft发布,主要应用于机器阅读理解和信息检索领域,由真实用户生成的查询构成。
7. ImageCLEF: ImageCLEF是一个多模态数据集,用于图像检索的评估,这个数据集包含图像以及与图像相关的文本信息。
8. WikiQA: WikiQA是一个问答数据集,专为自然语言处理和信息检索应用设计,其中包含了真实用户在bing提出的问题和维基百科的答案。
2.1.4 其他一些中文测试数据集
这些中文数据集为数据挖掘、机器学习模型训练、NLP任务等研究提供了丰富的资源,但需要注意的是,在使用这些数据集前,研究者应该审核它们的授权协议,确保合法合规地使用。此外,中文自然语言处理面临着分词、歧义解析、句法和语义分析等挑战,这些中文IR测试数据集为解决这些问题提供了支持。随着中文互联网内容的不断增长,预计将有更多的针对特定领域(如医疗健康、法律等)的中文IR测试数据集出现。
1. 人民日报语料库 (People's Daily Corpus):这个语料库包含了人民日报多年的新闻数据,广泛用于中文文本的自然语言处理和信息检索研究。
2. 搜狗实验室数据集 (Sogou Lab Dataset):搜狗实验室提供了多个数据集,包括搜狗新闻数据集、搜狗全网数据集(搜狐网站的新闻数据)、搜狗细分分类语料库等。
3. 中文微博语料库:开放的中文微博语料库常用于研究社交媒体文本的信息检索和情感分析。
4. THUCTC (THU Chinese Text Classification Dataset):清华大学NLP实验室发布的中文新闻分类数据集,用于文本分类和信息检索研究。
5. 中文问答语料库 (Chinese Question Answering Dataset):这些数据集被用于开发和评估中文自然语言理解系统和信息检索系统,如CMRC 2018、DuReader等。
6. BaiduBaike Corpus:百度百科的语料库,适用于实体识别、知识图谱构建和信息检索领域。
7. 中文社交网络用户生成的内容:评论、产品评价、论坛帖子等用户生成的内容也是信息检索研究的一个重要方向。
8. iFLYTEK开放数据集:科大讯飞开放的数据集包含了大量的中文语音数据和相关的文本信息,可用于语音搜索等应用的研究。
2.1.5 简单对比一下这些中文测试数据的特点
对比以下中文信息检索(IR)测试数据集的特点,可以帮助研究者或开发者根据他们的研究需求选择合适的数据集:
1. 人民日报语料库 (People's Daily Corpus)
- 特点:这个语料库由人民日报出版,包含了多年的新闻文章,涵盖了政治、经济、文化等多方面内容。
- 适用性:适用于时间序列分析、舆情分析、历史文献研究等。
2. 搜狗实验室数据集 (Sogou Lab Dataset)
- 特点:提供了丰富多样的数据集,从新闻到各类网页的全网数据。
- 适用性:适合用于宽泛的IR研究,包括搜索引擎优化、用户搜索行为分析等。
3. 中文微博语料库
- 特点:包含大量实时社交媒体文本数据,具有非常丰富的网络用语和表情符号。
- 适用性:适用于社交媒体挖掘、情感分析、实时话题跟踪等。
4. THUCTC (THU Chinese Text Classification Dataset)
- 特点:该数据集专注于文本分类,包括了多个主题分类的新闻文章。
- 适用性:适合基本的文本分类问题,信息检索系统分类精度的研究等。
5. 中文问答语料库 (Chinese Question Answering Dataset)
- 特点:主要用于问答系统,数据来源包括高质量的百科问答数据。
- 适用性:适用于问答系统开发、机器阅读理解技术研究。
6. BaiduBaike Corpus
- 特点:来源广泛,囊括了大量领域的实体信息和知识点。
- 适用性:可用于构建知识图谱、实体识别和实体相关的信息检索。
7. 中文社交网络用户生成的内容
- 特点:呈现了用户的自然语言使用习惯,带有强烈的个人和情感色彩。
- 适用性:适用于用户生成内容的IR研究,如产品推荐系统、口碑分析等。
8. iFLYTEK开放数据集
- 特点:主要涉及中文语音及其转写文本,适用于语音识别研究。
- 适用性:语音搜索、语音驱动的信息检索、口语理解系统等。
三、关于测试指标
在信息检索(IR)领域,评估检索系统的性能是一个关键环节。有几个重要的评测指标被广泛使用来衡量IR系统的效果。以下是一些核心的评估指标:
1. 精确度 (Precision):精确度是指检索到的相关文档数与检索到的文档总数的比率。如果一个检索系统只返回相关文档,那么它的精确度就是100%。
2. 召回率 (Recall):召回率是指检索到的相关文档数与数据库中全部相关文档总数的比率。一个完美的检索系统应当能检索到所有相关文档,即召回率为100%。
3. F-measure 或 F-score:F-measure是精确度和召回率的调和平均,是两者综合考虑的结果。通常用β值来调节精确度和召回率的相对重要性,其中β=1时,即F1-score,是精确度和召回率的等权重平均。
4. 平均精确度 (Average Precision, AP):对于一个查询,平均精确度是在每找到一个相关文档时所计算的精确度的平均值。它结合了精确度的排名信息,是一个单个查询的性能度量。
5. 平均查准率的平均值 (Mean Average Precision, MAP):MAP是在所有查询上平均精确度的平均值,它提供了评估整个检索系统在一个数据集上的整体表现的方法。
6. 总体查全率 (Overall Recall):这是所有查询的总召回率,可以看到在给定的测试数据集上所有相关文档的检索程度。
7. 平均倒数排名 (Mean Reciprocal Rank, MRR):在多个查询中,首个相关文档的倒数排名的平均值。 在问答系统和一些检索任务中,首个返回的答案的质量至关重要。
8. NDCG (Normalized Discounted Cumulative Gain):NDCG是一个衡量排名质量的指标,它在计算利润时考虑了位置的影响。NDCG特别适合于情境下相关性是分级的查询(如在某个级别上完全相关,在另一个级别上部分相关)。
9. 错误率 (Error Rate):这是检索错误的频率,也就是不相关文档被检索出来或者相关文档未被检索出来的频率。
10. 查全率-查准率曲线 (Recall-Precision Curve):通过在不同的召回率水平上绘制精确度值,可以得到一个曲线,它展示了检索系统在不同的操作点上的性能。
这些指标通常被用来评价文本检索系统,图像检索系统,以及使用其它类型数据的检索系统。选择最合适的评测指标取决于系统设计的目标和预期用途。对于商业搜索引擎来说,点击率和转化率可能也是重要的评测指标。经过恰当评估和分析,这些指标有助于提升IR系统的性能、增强用户体验并引导未来的研究工作。