保险行业语料库
该语料库包含从网站 Insurance Library 收集的问题和答案。
据我们所知,这是保险领域首个开放的 QA 语料库:
该语料库的内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料,而不是玩具。
在上述论文中,语料库用于答复选择任务。 另一方面,这种语料库的其他用法也是可能的。 例如,通过阅读理解答案,观察学习等自主学习,使系统能够最终拿出自己的看不见的问题的答案。
数据集分为两个部分 " 问答语料 " 和 " 问答对语料 "。问答语料是从原始英文数据翻译过来,未经其他处理的。问答对语料是基于问答语料,又做了分词和去标去停,添加 label。所以," 问答对语料 " 可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意,可以直接对 " 问答语料 " 使用其他方法进行处理,获得可以用于训练模型的数据。
欢迎任何进一步增加此数据集的想法。
快速开始
语料地址
https://github.com/Samurais/insuranceqa-corpus-zh
在 Python 环境中,可以使用 pip 安装
兼容 py2, py3
pip install --upgrade insuranceqa_data
问答语料
问题答案词汇(英语)
训练12,88921,325107,889
验证2,000335416,931
测试2,000330816,815
每条数据包括问题的中文,英文