【知识抽取】Rule extraction from scientific texts: Evaluation in the specialty of gynecology （论文笔记）

liqq234

已于 2023-02-05 00:22:24 修改

阅读量131

点赞数

分类专栏：论文笔记文章标签：论文阅读数据挖掘人工智能知识图谱

于 2023-02-05 00:21:43 首次发布

本文链接：https://blog.csdn.net/liqq234/article/details/128880096

版权

7 篇文章 0 订阅

订阅专栏

文章概述

文章所属种类：知识提取，规则提取，本体语言，SWRL
内容：以前的工作大都专注于文本中本体信息的自动提取，这种方式获取的知识局限于简单的层级术语当中，却很少有工作研究如何从文本中提取更复杂的关系，尤其是许多文本中以规则形式存在的知识（比如医学报告）。显然，这种规则和需求不能被表示为本题中的术语分层结构，使用规则形式的知识表示却很必要。自动获取这类知识对于从文本中建立规则库非常有用。为辅助专业人员和妇产科医生给与病人适当的诊疗方案，本文提出一个基于OWL+SWRL规则的决策支持系统。 该系统可以使用数据挖掘技术和NLP工具从文本中提取SWRL表示的演绎知识 获取更强大的关系表达，允许推理和产生新的实体。其思想包含解析一系列的医学报告丰富和利用已存在的领域本体。

建立系统的三个目标：

系统的输入：已存在的知识(一个本体)+自由文本
准备语料：手动从医院档案中收集医学报告
语义分析：（文本分解模块）tokenization->POS Tagging->assign lemma to each token->filter words(reduce stop words…)、（标记识别模块）利用关键词和JAPE rules对与标记相关的术语进行标注，并识别Marker类型词的前部和后部、（匹配模块）使用本体实体字典、Jaro-Winkler 距离、相关的近义词比较前一个模块输出的词元，输出对应的本体信息（concepts, instances, properties, and literals）
SWRL规则生成：（三元组构建）将语义分析部分得到的信息配对->使用已存在的本体语义信息构建有效的三元组形式(< argument, relation, argument >)、（SWRL规则生成器）将三元组转换为中间形式(triple < C1, R, C2 > becomes R (C1 (x), C2 (y)) )->通过选择更明确的中间形式移除重复的连接，消除冗余->将剩余的中间形式转换为SWRL语言

该方法的优势：

局限：

不能处理< class, Datatype property > 或者 < instance, Datatype property>，当Datatype property是一个列表时不能确定其值
不能使用布尔值检索literals类型的数据
如果SWRL中的head部分不具有丰富的词汇语法，此方法便不能提取一个一致的head
此方法不能处理数字属性