relation_extraction_competition

在这里插入图片描述
在这里插入图片描述
SPO主谓宾,S的P是O,这样描述,S就是头实体,O就是尾实体
在这里插入图片描述
把所以的关系列出来,那么关系里面是实体的关系,所以一定存在头实体和尾实体,没个文字的分类,肯定是属于哪个实体的分类,而实体的类别存在与关系的类别中,一个关系就是两个实体,所有的关系X2,就是这个字所能够分成的所属实体的类别。
尾实体可能存在多种类别,所以用@做区分
在这里插入图片描述
实际的数据标注,把所有的头实体类别,关系类别,尾实体类别都做好标注,相应的实际示例实体也抽取出来。类别是示例的抽象,示例是类别的具体,类似于程序里面类的实例化。
在这里插入图片描述

在这里插入图片描述
实际的关系列表里面有两个类别是I和O,这两个关系类别没有所谓的尾实体或者头实体,只是针对一个字符的实体标注,所以要排除乘以1,实际公式 num_classes=(len(label_map) - 2) * 2 + 2)

from paddlenlp.transformers import RobertaForTokenClassification, RobertaTokenizer

model = RobertaForTokenClassification.from_pretrained(
    "roberta-wwm-ext-large",
    num_classes=(len(label_map) - 2) * 2 + 2)
tokenizer = RobertaTokenizer.from_pretrained("roberta-wwm-ext-large")

在这里插入图片描述
根据对应的object的类型,对应的关系也要增加

labels = outside_label + labels + outside_label
    tok_to_orig_start_index = [-1] + tok_to_orig_start_index + [-1]
    tok_to_orig_end_index = [-1] + tok_to_orig_end_index + [-1]
    if seq_len < max_length:
        tokens = tokens + ["[PAD]"] * (max_length - seq_len - 2)
        labels = labels + outside_label * (max_length - len(labels))
        tok_to_orig_start_index = tok_to_orig_start_index + [-1] * (
            max_length - len(tok_to_orig_start_index))
        tok_to_orig_end_index = tok_to_orig_end_index + [-1] * (
            max_length - len(tok_to_orig_end_index))

    token_ids = tokenizer.convert_tokens_to_ids(tokens)

    return InputFeature(
        input_ids=np.array(token_ids),
        seq_len=np.array(seq_len),
        tok_to_orig_start_index=np.array(tok_to_orig_start_index),
        tok_to_orig_end_index=np.array(tok_to_orig_end_index),
        labels=np.array(labels), )

构造多标签样本id

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
relation_extraction()是一个用于关系提取的函数。关系提取是指从文本中提取出实体之间的关系或联系的过程。 该函数的输入是一个文本,输出是该文本中所有实体间的关系。 关系提取可以应用于多个领域,如自然语言处理、数据挖掘等。它可以帮助我们从海量的文本数据中挖掘出实体之间的关联关系,从而帮助人们更好地理解和分析文本中的信息。 关系提取技术通常包括以下几个步骤: 1. 文本预处理:对输入的文本进行分词、词性标注等处理,以便后续的实体识别和关系抽取。 2. 实体识别:识别文本中的命名实体,如人名、地名、机构名等。可以使用基于规则、基于统计的方法或者深度学习的方法来进行实体识别。 3. 关系抽取:基于实体识别的结果,抽取实体之间的关系。可以使用基于规则的方法、基于统计的方法或者机器学习的方法来进行关系抽取。 4. 关系分类:对抽取出的关系进行分类,可以根据具体的任务和需求进行分类,如人物关系、地理关系等。 relation_extraction()函数的具体实现可能包括以上的几个步骤,根据输入的文本,它会先进行文本预处理,然后识别出文本中的实体,再利用关系抽取技术提取实体之间的关系,最后对提取出的关系进行分类。 该函数的输出可能是一个关系矩阵或者一个关系图,可以直观地展示出文本中实体之间的关系。关系图可以帮助人们更好地理解文本中的关联关系,帮助人们发现文本中的隐藏信息,从而提高文本理解和分析的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值