MiningZhiDaoQACorpus,580万百度知道问题,980万问答对数据挖掘项目

MiningZhiDaoQACorpus

580万百度知道问答数据挖掘项目
ZhiDaoChatCorpus, zhidao QA pairs crawled from Baidu zhidao which contains more than 5,800,000 question and answers with certain tags。百度知道问答语料库,包括超过580万的问题,每个问题带有问题标签。基于该问答语料库,可支持多种应用,如逻辑挖掘。

项目介绍

知道类问答社区,是目前社会知识传播和交流的重要场所之一,有问题找百度,有问题,更找百度知道,这句话鲜明的点出了作为国内最大的全民问答社区,百度知道所占据的地位。 本项目以百度问答数据位试点进行挖掘,目标有二,其一是开源数据,其二是基于该数据集做知识挖掘。

知道类问答数据的特点

1, 规模之大。截止到我敲下这个现在这个字时,百度知道已经积累了549,406,017个问题,这个问题数量无时不刻在增长,并且已经达到了5亿的级别,这个数量隐藏着百度知道这一社区的知识财富。
2, 质量之伤。既然是众包之下的一个产物,准确性和规范性容易被人诟病,我们必须承认很多答非所问,乱说一通现象的存在。但好的占多数(这个数字可以参考相关论文,已有论文做过研究)。
3, 范围之广。百度问答社区所涉及到的问题有很多,有专业领域的问题,也有吃喝拉撒睡之类的生活问题,也有小学生问作业怎么做,这与人们的生活息息相关。
5, 价值之大。一问一答,往往是以解决问题为目的而产生的,这种解决问题的行为是一种潜在的因果逻辑所在,这种逻辑又包括多种领域。

知道类问答数据的应用

因此,知道类问答社区,可以支持以下应用:
1, 问答QA。问答语料库目前不少,加上这个百度问答语料能够有一定程度的扩充,用作算法学习也好,用作闲聊或者领域问答也好,都能发挥出其价值。
2, 数据挖掘。社区问答是社会语言生活最为直接的一种反映途径,基于百万级的问答对,可以支持多方面的分析,如问题画像等。
3, 语言挖掘。语言挖掘,指的是基于问答语料做诸如百度社区问句风格上,词语使用情况等的分析工作,借此来考察语言生活上的特点,也可以用该特定语料进行领域模型的训练。
4, 知识挖掘。百度问答对是非结构化的知识库,里面隐藏着大量的逻辑知识,实体知识和关系知识,如果对其进行结构化,那将能够挖掘出大量的实体性,事件性的逻辑知识出来。(这也是本项目的一个目标)。

知道类问答数据的概况

因此,考虑到百度知道的四个数据特点以及4个应用点,本项目通过采集百度知道,形成了百万级别的问答数据库规模。其中:
1, 问题个数583万个。
2, 问答对983万个。
3, 每个问题的答案个数1.7个。
4, 问题标签个数582

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值