conll-2012-formatted-ontonotes-5.0中文数据格式说明

CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。

CoNLL-2012 数据格式通常包括多列,每列包含不同类型的语言学信息。以下是一个典型的 CoNLL-2012 格式的例子,展示了它的列结构和类型:


bc/cnn/00/cnn_0000   0    0           而且    AD         (TOP(IP(ADVP*)  -    -   -    Paula_Zahn_#1E         *    (ARGM-DIS*)            *      -
bc/cnn/00/cnn_0000   0    1         国防部长    NN               (NP(NP*)  -    -   -    Paula_Zahn_#1E         *        (ARG0*             *   (195
bc/cnn/00/cnn_0000   0    2    唐纳德·拉姆斯菲尔    NR                 (NP*))  -    -   -    Paula_Zahn_#1E   (PERSON)            *)            *    195)
bc/cnn/00/cnn_0000   0    3            说    VV                  (VP*   -   01   7    Paula_Zahn_#1E         *           (V*)            *      -
bc/cnn/00/cnn_0000   0    4            更    AD   (IP(NP(DNP(QP(ADVP*)  -    -   -    Paula_Zahn_#1E         *        (ARG1*        (ARG0*   (247
bc/cnn/00/cnn_0000   0    5            多    CD                 (QP*))  -    -   3    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0    6            的   DEG                     *)  -    -   -    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0    7           美国    NR                  (NP*)  -    -   -    Paula_Zahn_#1E     (NORP)            *             *      -
bc/cnn/00/cnn_0000   0    8           士兵    NN                 (NP*))  -    -   -    Paula_Zahn_#1E         *             *             *)   247)
bc/cnn/00/cnn_0000   0    9           可能    AD             (VP(ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-ADV*)     -
bc/cnn/00/cnn_0000   0   10           不久    AD                (ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-TMP*)     -
bc/cnn/00/cnn_0000   0   11            将    AD                (ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-ADV*)     -
bc/cnn/00/cnn_0000   0   12           启程    VV               (VP(VP*)  -    -   -    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0   13           前往    VV                  (VP*   -   01   -    Paula_Zahn_#1E         *             *           (V*)     -
bc/cnn/00/cnn_0000   0   14          伊拉克    NR             (NP*))))))  -    -   -    Paula_Zahn_#1E      (LOC)            *)       (ARG1*)     -
bc/cnn/00/cnn_0000   0   15            .    PU                    *))  -    -   -    Paula_Zahn_#1E         *             *             *      -

bc/cnn/00/cnn_0000   0    0       他    PN      (TOP(IP(NP*)  -    -   -    Paula_Zahn_#1E       *    (ARG0*)            *         *        *      *      *    (195)
bc/cnn/00/cnn_0000   0    1       说    VV             (VP*   -   01   7    Paula_Zahn_#1E       *       (V*)            *         *        *      *      *       -
bc/cnn/00/cnn_0000   0    2       将    AD     (IP(VP(ADVP*)  -    -   -    Paula_Zahn_#1E       *    (ARG1*    (ARGM-ADV*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    3      暂时    AD           (ADVP*)  -    -   -    Paula_Zahn_#1E       *         *    (ARGM-ADV*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    4      需要    VV             (VP*   -   02   1    Paula_Zahn_#1E       *         *           (V*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    5      他们    PN          (IP(NP*)  -    -   -    Paula_Zahn_#1E       *         *        (ARG1*    (ARG0*)       *      *      *    (247)
bc/cnn/00/cnn_0000   0    6       来   MSP             (VP*   -    -   7    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0    7      防止    VV             (VP*   -   01   -    Paula_Zahn_#1E       *         *             *       (V*)       *      *      *       -
bc/cnn/00/cnn_0000   0    8    十二月份    NT   (NP(LCP(NP(NP*)  -    -   -    Paula_Zahn_#1E   (DATE)        *             *    (ARG1*        *      *      *       -
bc/cnn/00/cnn_0000   0    9     伊拉克    NR             (NP*)  -    -   -    Paula_Zahn_#1E   (ORG*         *             *         *        *      *      *    (206)
bc/cnn/00/cnn_0000   0   10      国会    NN             (NP*   -    -   -    Paula_Zahn_#1E       *)        *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   11      选举    NN               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   12       前    LC                *)  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   13      预料    VV    (CP(CP(IP(VP*   -   01   -    Paula_Zahn_#1E       *         *             *         *      (V*)     *      *       -
bc/cnn/00/cnn_0000   0   14       会    VV          (IP(VP*   -   02   -    Paula_Zahn_#1E       *         *             *         *   (ARG1*    (V*)     *       -
bc/cnn/00/cnn_0000   0   15      增长    VV         (VP*)))))  -   01   1    Paula_Zahn_#1E       *         *             *         *        *)     *    (V*)      -
bc/cnn/00/cnn_0000   0   16       的   DEC               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   17      叛乱    NN             (NP*   -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   18      袭击    NN        *)))))))))  -    -   -    Paula_Zahn_#1E       *         *)            *)        *)       *      *      *       -
bc/cnn/00/cnn_0000   0   19       .    PU               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -

每列的含义为:

      第一列是文件名。

      第二列是文档片段iid,大部分是0。

     后面几列为:

  1. Word index: 句子中的词索引。
  2. Word form: 词的原形。
  3. Part-of-Speech tag: 词性标签。
  4. Parse tree: 句法分析树的部分信息。
  5. Predicate lemma: 如果当前词是谓词,则为谓词的原形;否则为一个连字符。
  6. Predicate Frameset ID: 如果当前词是谓词,则为框架ID;否则为一个连字符。
  7. Word sense: 词的语义编号,如果适用的话。
  8. Speaker/Author: 说话者或作者。
  9. Named Entities: 命名实体标记。
  10. Predicate Arguments: 与谓词相关的语义角色标注。
  11. Coreference: 共指解析标记。

其中,共指标记中,相同数字的表示同一指代簇。

/cctv/00/cctv_0000   0    4    熟知    VV         (VP*)))))  -   01   -   Speaker#1       *       (V*)           *         *      -
bc/cctv/00/cctv_0000   0    5     的   DEC               *))  -    -   -   Speaker#1       *         *            *         *      -
bc/cctv/00/cctv_0000   0    6    卡通    NN             (NP*   -    -   -   Speaker#1       *         *            *         *    (82
bc/cctv/00/cctv_0000   0    7    形象    NN               *))  -    -   -   Speaker#1       *         *            *)        *     82)
bc/cctv/00/cctv_0000   0    8     以     P          (VP(PP*   -    -   -   Speaker#1       *         *   (ARGM-MNR*         *      -
bc/cctv/00/cctv_0000   0    9     其    PN          (NP(NP*)  -    -   -   Speaker#1       *         *            *         *    (82)
bc/cctv/00/cctv_0000   0   10    独有    JJ       (DNP(ADJP*)  -    -   -   Speaker#1       *         *            *         *      -
bc/cctv/00/cctv_0000   0   11     的   DEG                *)  -    -   -   Speaker#1       *         *            *         *      -

这个示例中同一共指簇的信息为 [82, 9, 9], [82, 6, 7],表示第9个词“其”和第6和第7“卡通形象”,指代相同。

  • 22
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值