机器学习中qa测试_机器学习问答数据集：这是保险领域首个开放的QA语料库

最新推荐文章于 2024-05-22 14:04:38 发布

小川叔

最新推荐文章于 2024-05-22 14:04:38 发布

阅读量431

点赞数

文章标签：机器学习中qa测试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33772728/article/details/113017294

版权

这是一个从Insurance Library收集的真实问题和专业答案的保险领域QA语料库，可用于答复选择任务和其他自主学习场景。数据集分为问答语料和问答对语料，包含训练、验证和测试三部分，可用于机器学习模型训练。

摘要由CSDN通过智能技术生成

保险行业语料库

该语料库包含从网站 Insurance Library 收集的问题和答案。

据我们所知，这是保险领域首个开放的 QA 语料库：

该语料库的内容由现实世界的用户提出，高质量的答案由具有深度领域知识的专业人士提供。所以这是一个具有真正价值的语料，而不是玩具。

在上述论文中，语料库用于答复选择任务。另一方面，这种语料库的其他用法也是可能的。例如，通过阅读理解答案，观察学习等自主学习，使系统能够最终拿出自己的看不见的问题的答案。

数据集分为两个部分 " 问答语料 " 和 " 问答对语料 "。问答语料是从原始英文数据翻译过来，未经其他处理的。问答对语料是基于问答语料，又做了分词和去标去停，添加 label。所以，" 问答对语料 " 可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意，可以直接对 " 问答语料 " 使用其他方法进行处理，获得可以用于训练模型的数据。

欢迎任何进一步增加此数据集的想法。

快速开始

语料地址

https://github.com/Samurais/insuranceqa-corpus-zh

在 Python 环境中，可以使用 pip 安装

兼容 py2, py3

pip install --upgrade insuranceqa_data

问答语料

问题答案词汇(英语)

训练12,88921,325107,889

验证2,000335416,931

测试2,000330816,815

每条数据包括问题的中文，英文࿰

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。