文本关系抽取怎么做

在平凡生活中挣扎

已于 2022-05-09 16:36:12 修改

阅读量1.2k

点赞数 1

分类专栏：知识图谱 python 文章标签：知识图谱 python

于 2022-05-09 16:36:02 首次发布

本文链接：https://blog.csdn.net/qq_29220369/article/details/124664654

版权

python 同时被 2 个专栏收录

25 篇文章 0 订阅

订阅专栏

知识图谱

6 篇文章 0 订阅

订阅专栏

在医疗领域知识图谱构建的过程中，需要对数据进行结构化处理，将病例信息通过文本关系抽取，抽取出实体，关系。同时在构建对话系统时也需要对输入的句子进行句意理解，这也需要对句子进行文本关系抽取。

一、关系抽取要完成的任务概述

我们希望通过nlp自动的将这样的一段句子中，找出其中的实体，以及它们之间的关系。

1.对句子进行分词。

2.为了辨别出想要的实体词，关系词，判断出某个词我们是否需要，因此会将分开的词语进行词性标注。

参考文档：使用 pyltp — pyltp 0.2.0 文档

3.依存句法分析。

将分词结果和词性标注结果输入句法分析模型，得到句子中的所有关系。

arcs = self.parser.parse(words, postags)  # 依存句法分析

根据下图，一个句子中，找出每个词对应的关系，存为字典。

参考文档：使用 pyltp — pyltp 0.2.0 文档

根据得出的关系字典，遍历字典，根据句法依存关系表，确定句子中所有的主谓，动宾等关系，存储下来，为后面设计规则抽取想要的关系做准备。

4.语义角色标注。

参考文档：使用 pyltp — pyltp 0.2.0 文档

roles = self.labeller.label(words, postags, arcs)

将分词结果，词性标注结果，句法分析结果输入语义角色标注模型，输出语义角色标注结果。就可以提取出下图中的角色。然后设计规则抽取实体。

5.设计规则完成关系抽取。

预处理部分可以对文章分句处理，不然句子过长。

'''文章分句处理, 切分长句，冒号，分号，感叹号等做切分标识'''

    def split_sents(self, content):
        return [sentence for sentence in re.split(r'[？?！!。；;：:\n\r]', content) if sentence]

然后利用语义角色标注，获取主谓宾三元组。

'''利用语义角色标注,直接获取主谓宾三元组,基于A0,A1,A2'''

    def ruler1(self, words, postags, roles_dict, role_index):
        v = words[role_index]
        role_info = roles_dict[role_index]
        if 'A0' in role_info.keys() and 'A1' in role_info.keys():
            s = ''.join([words[word_index] for word_index in range(role_info['A0'][1], role_info['A0'][2] + 1) if
                         postags[word_index][0] not in ['w', 'u', 'x'] and words[word_index]])
            o = ''.join([words[word_index] for word_index in range(role_info['A1'][1], role_info['A1'][2] + 1) if
                         postags[word_index][0] not in ['w', 'u', 'x'] and words[word_index]])
            if s and o:
                return '1', [s, v, o]
        return '4', []

在平凡生活中挣扎

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
文本关系抽取怎么做

在医疗领域知识图谱构建的过程中，需要对数据进行结构化处理，将病例信息通过文本关系抽取，抽取出实体，关系。同时在构建对话系统时也需要对输入的句子进行句意理解，这也需要对句子进行文本关系抽取。一、关系抽取要完成的任务概述我们希望通过nlp自动的将这样的一段句子中，找出其中的实体，以及它们之间的关系。1.对句子进行分词。2.为了辨别出想要的实体词，关系词，判断出某个词我们是否需要，因此会将分开的词语进行词性标注。参考文档：使用 pyltp — pyltp 0.2.0 文档3.依..
复制链接

扫一扫

专栏目录