知识图谱之NELL数据集简介

1 NELL数据集简介

来源:NELL

1.1 目录结构

  1. train_tasks.json
  2. dev_tasks.json
  3. test_tasks.json
  4. ent2ids
  5. relation2ids
  6. path_graph
  7. e1rel_e2.json
  8. rel2candidates.json

1.2 对应文件的解释

  1. 训练集:每个关系所在的三元组的数量在50到500之间 51个关系
  2. 验证集:每个关系所在的三元组的数量在50到500之间 5个关系
  3. 测试集:每个关系所在的三元组的数量在50到500之间 11个关系
  4. 所有实体对应id
  5. 除了训练集、验证集和测试集所有关系的关系所对应的id
  6. 除了训练集、验证集和测试集所有关系的关系所包含的三元组
  7. 存在于训练集、验证集和测试集中的所有关系对应的正确三元组
  8. 存在于训练集、验证集和测试集中的所有关系对应候选实体(根据实体类型的约束得到的)

1.3 数据探索

  • 读取文件

    train_tasks = json.load(open("FAAN/NELL/train_tasks.json"))
    print(len(train_tasks))   # 51
    
    ent2id = json.load(open('FAAN/NELL/ent2ids'))
    print(len(ent2id))        # 68544
    

2 Wiki数据集简介

来源:Wiki

未完待续~~~

  • 6
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
### 回答1: NELL995数据集是由OpenAI研究小组开发的一种开源机器学习数据集,它包含了超过95万条从网络上收集到的实体关系数据,可以帮助机器学习系统进行推理和推断。NELL995数据集可以用于机器学习模型的训练,比如自然语言处理模型、机器翻译模型、问答系统和语义搜索系统等。 ### 回答2: NELL995数据集是一个用于自然语言处理机器学习数据集,它被广泛用于知识图谱的构建和知识表示学习的任务。这个数据集由卡内基梅隆大学的NELL项目团队创建。 NELL995数据集是在1995年的万维网上进行信息抽取而得到的,其中包含了大量的实体、谓词和实体关系。这些实体可以是人、地点、组织等各种概念。谓词则描述了实体之间的关系,如父子关系、工作关系等。这些实体和关系被组织成一个三元组的形式,即(实体1,谓词,实体2)。 NELL995数据集是以无监督学习的方式进行构建的,它通过对海量的网页内容进行语义分析和模式识别来自动抽取知识。这意味着数据集中的实体和关系并不是事先定义好的,而是根据网页中的信息自动学习得到的。 NELL995数据集的规模非常庞大,包含了超过50万个实体和数百万个关系,是目前最大的公开可用的知识图谱数据集之一。这使得研究人员可以使用这个数据集进行各种任务,如实体关系抽取、实体链接、知识表示学习等。 NELL995数据集具有一些特点,例如它包含了丰富的知识,在很多领域都有广泛的覆盖。此外,该数据集还提供了实体和关系的层次结构信息,使得研究人员可以进行更加细粒度的分析和研究。 总之,NELL995数据集是一个用于自然语言处理机器学习的大规模知识图谱数据集,它为研究人员提供了丰富的知识资源,可以用于各种任务和领域的研究。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值