机器学习中qa测试_机器学习问答数据集:这是保险领域首个开放的QA语料库

这是一个从Insurance Library收集的真实问题和专业答案的保险领域QA语料库,可用于答复选择任务和其他自主学习场景。数据集分为问答语料和问答对语料,包含训练、验证和测试三部分,可用于机器学习模型训练。
摘要由CSDN通过智能技术生成

保险行业语料库

该语料库包含从网站 Insurance Library   收集的问题和答案。

据我们所知,这是保险领域首个开放的 QA 语料库:

该语料库的内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料,而不是玩具。

在上述论文中,语料库用于答复选择任务。 另一方面,这种语料库的其他用法也是可能的。 例如,通过阅读理解答案,观察学习等自主学习,使系统能够最终拿出自己的看不见的问题的答案。

数据集分为两个部分 " 问答语料 " 和 " 问答对语料 "。问答语料是从原始英文数据翻译过来,未经其他处理的。问答对语料是基于问答语料,又做了分词和去标去停,添加 label。所以," 问答对语料 " 可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意,可以直接对 " 问答语料 " 使用其他方法进行处理,获得可以用于训练模型的数据。

欢迎任何进一步增加此数据集的想法。

快速开始

语料地址

https://github.com/Samurais/insuranceqa-corpus-zh

在 Python 环境中,可以使用 pip 安装

兼容 py2, py3

pip install --upgrade insuranceqa_data

问答语料

问题答案词汇(英语)

训练12,88921,325107,889

验证2,000335416,931

测试2,000330816,815

每条数据包括问题的中文,英文࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值