DocRED数据集描述

一篇文章包含
    {
        "vertexset":[]
        "labels":[]
        "title":""
        "sents":[[]...[]]
    }

其中vertexset包含
    "pos"为一个词性的索引,例[0:3]--0,1,2
    "type"为这个词的词性类型
        有person, location, organization, time, number, miscellaneous(其他实体)
           PER     LOC       ORG          TIME   NUM     MISC
    "sent_id"为该实体所在的句子索引
    
"vertexSet": [
    [
        {
          "pos": [
            0,
            3
          ],
          "type": "PER",
          "sent_id": 0,
          "name": "Miguel Riofrio Sánchez"
        },

其中labels包含   (***有实体共指问题
    "r"为关系类型
    "h"为头实体在vertexset中的索引
    "t"为尾实体在vertexset中的索引
    "evidence"为支持实例的句子索引
 "labels": [
    {
        "r": "P607",
        "h": 1,
        "t": 3,
        "evidence": [
          0
        ]
    },

例:
sent_id = 0:
    Lark Force was an Australian Army formation established in March 1941 during World War II for service in New Britain and New Ireland

"r" = P607:
    "P607": "conflict",

"h" = 1:
    [
        {
          "name": "Australian Army",
          "pos": [
            4,
            6
          ],
          "sent_id": 0,
          "type": "ORG"
        }
    ]

"t" = 3:
    [
        {
          "name": "World War II",
          "pos": [
            12,
            15
          ],
          "sent_id": 0,
          "type": "MISC"
        }
    ]


```
Data Format:
{
  'title',
  'sents':     [
                  [word in sent 0],
                  [word in sent 1]
               ]
  'vertexSet': [
                  [
                    { 'name': mention_name, 
                      'sent_id': mention in which sentence, 
                      'pos': postion of mention in a sentence, 
                      'type': NER_type}
                    {anthor mention}
                  ], 
                  [anthoer entity]
                ]
  'labels':   [
                {
                  'h': idx of head entity in vertexSet,
                  't': idx of tail entity in vertexSet,
                  'r': relation,
                  'evidence': evidence sentences' id
                }
              ]
}
```

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值