MiningZhiDaoQACorpus，580万百度知道问题，980万问答对数据挖掘项目

最新推荐文章于 2022-08-02 01:06:16 发布

「已注销」

最新推荐文章于 2022-08-02 01:06:16 发布

阅读量1.6k

点赞数 3

分类专栏：自然语言处理语言资源人工智能语言信息处理文章标签：问答数据集百度知道知道数据集问答挖掘知识库

本文链接：https://blog.csdn.net/lhy2014/article/details/98106469

版权

本文介绍了 MiningZhiDaoQACorpus，一个包含580万百度知道问答数据的项目，涉及问答对、问题标签等内容。数据集可用于问答QA、数据挖掘、语言挖掘和知识挖掘等多种应用。提供了数据概览、文件信息，并指出未来将进行逻辑关系挖掘工作。

摘要由CSDN通过智能技术生成

MiningZhiDaoQACorpus

580万百度知道问答数据挖掘项目
ZhiDaoChatCorpus, zhidao QA pairs crawled from Baidu zhidao which contains more than 5,800,000 question and answers with certain tags。百度知道问答语料库，包括超过580万的问题，每个问题带有问题标签。基于该问答语料库，可支持多种应用，如逻辑挖掘。

项目介绍

知道类问答社区,是目前社会知识传播和交流的重要场所之一,有问题找百度,有问题,更找百度知道,这句话鲜明的点出了作为国内最大的全民问答社区,百度知道所占据的地位。本项目以百度问答数据位试点进行挖掘，目标有二，其一是开源数据，其二是基于该数据集做知识挖掘。

知道类问答数据的特点

1, 规模之大。截止到我敲下这个现在这个字时,百度知道已经积累了549,406,017个问题,这个问题数量无时不刻在增长,并且已经达到了5亿的级别,这个数量隐藏着百度知道这一社区的知识财富。
2, 质量之伤。既然是众包之下的一个产物,准确性和规范性容易被人诟病,我们必须承认很多答非所问,乱说一通现象的存在。但好的占多数(这个数字可以参考相关论文,已有论文做过研究)。
3, 范围之广。百度问答社区所涉及到的问题有很多,有专业领域的问题,也有吃喝拉撒睡之类的生活问题,也有小学生问作业怎么做,这与人们的生活息息相关。
5, 价值之大。一问一答,往往是以解决问题为目的而产生的,这种解决问题的行为是一种潜在的因果逻辑所在,这种逻辑又包括多种领域。

知道类问答数据的应用

因此,知道类问答社区,可以支持以下应用:
1, 问答QA。问答语料库目前不少,加上这个百度问答语料能够有一定程度的扩充,用作算法学习也好,用作闲聊或者领域问答也好,都能发挥出其价值。
2, 数据挖掘。社区问答是社会语言生活最为直接的一种反映途径,基于百万级的问答对,可以支持多方面的分析,如问题画像等。
3, 语言挖掘。语言挖掘,指的是基于问答语料做诸如百度社区问句风格上,词语使用情况等的分析工作,借此来考察语言生活上的特点,也可以用该特定语料进行领域模型的训练。
4, 知识挖掘。百度问答对是非结构化的知识库,里面隐藏着大量的逻辑知识,实体知识和关系知识,如果对其进行结构化,那将能够挖掘出大量的实体性,事件性的逻辑知识出来。(这也是本项目的一个目标)。

知道类问答数据的概况

因此,考虑到百度知道的四个数据特点以及4个应用点,本项目通过采集百度知道,形成了百万级别的问答数据库规模。其中:
1, 问题个数583万个。
2, 问答对983万个。
3, 每个问题的答案个数1.7个。
4, 问题标签个数582

最低0.47元/天解锁文章

「已注销」

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
MiningZhiDaoQACorpus，580万百度知道问题，980万问答对数据挖掘项目

MiningZhiDaoQACorpus580万百度知道问答数据挖掘项目ZhiDaoChatCorpus, zhidao QA pairs crawled from Baidu zhidao which contains more than 5,800,000 question and answers with certain tags。百度知道问答语料库，包括超过580万的问题，每个问题带有...
复制链接

扫一扫

专栏目录