NLP 关系抽取

原创于 2025-08-30 06:15:00 发布 · 184 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #人工智能

NLP 关系抽取概述

关系抽取（Relation Extraction, RE）是自然语言处理中的核心任务，旨在从文本中识别实体之间的语义关系。典型应用包括知识图谱构建、问答系统和信息检索。关系抽取方法可分为基于规则、监督学习、半监督学习和远程监督学习等。

基于监督学习的关系抽取

监督学习是关系抽取的主流方法，通常分为流水线式和联合抽取式。流水线式先识别实体，再分类关系；联合抽取式同步完成实体识别和关系分类。

流水线式关系抽取

以下是一个基于 PyTorch 和 Transformers 的流水线式关系抽取示例，使用 BERT 模型进行关系分类：

import torch
from transformers import BertTokenizer, BertForSequenceClassification

# 加载预训练模型和分词器
model_name = "bert-base-uncased"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=10)  # 假设有10种关系类型

# 示例输入：句子和实体标记
text = "Apple was founded by Steve Jobs in 1976."
entity1 = ("Apple", "ORG")
entity2 = ("Steve Jobs", "PER")

# 构造输入格式
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
outputs = model(**inputs)

# 预测关系类型
logits = outputs.logits
predicted_class = torch.argmax(logits, dim=1).item()
print(f"Predicted relation class: {predicted_class}")

联合抽取式关系抽取

联合模型（如 SpERT）同步抽取实体和关系：

from transformers import AutoTokenizer, AutoModelForTokenClassification

# 加载联合抽取模型（示例为 SpERT）
model_name = "dslim/bert-base-NER"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# 输入文本处理
text = "Microsoft was founded by Bill Gates."
inputs = tokenizer(text, return_tensors="pt")

# 预测实体和关系
outputs = model(**inputs)
predictions = torch.argmax(outputs.logits, dim=2)
print([(tokenizer.decode(inputs["input_ids"][0][i]), label) for i, label in enumerate(predictions[0])])

基于远程监督的关系抽取

远程监督通过对齐知识库自动生成训练数据。以下是一个使用 OpenNRE 工具包的示例：

import opennre

# 加载预训练远程监督模型
model = opennre.get_model("wiki80_cnn_softmax")

# 预测句子中的关系
text = "Elon Musk is the CEO of Tesla."
relation = model.infer({"text": text, "h": {"pos": (0, 9)}, "t": {"pos": (23, 28)}})
print(f"Predicted relation: {relation}")

关系抽取的评估指标

常用指标包括精确率（Precision）、召回率（Recall）和 F1 值。以下是一个计算示例：

from sklearn.metrics import precision_recall_fscore_support

y_true = [0, 1, 1, 0, 1]
y_pred = [0, 1, 0, 0, 1]
precision, recall, f1, _ = precision_recall_fscore_support(y_true, y_pred, average="binary")
print(f"Precision: {precision:.2f}, Recall: {recall:.2f}, F1: {f1:.2f}")