【知识抽取】Rule extraction from scientific texts: Evaluation in the specialty of gynecology (论文笔记)

文章概述

  • 文章所属种类:知识提取,规则提取,本体语言,SWRL
  • 内容:以前的工作大都专注于文本中本体信息的自动提取,这种方式获取的知识局限于简单的层级术语当中,却很少有工作研究如何从文本中提取更复杂的关系,尤其是许多文本中以规则形式存在的知识(比如医学报告)。显然,这种规则和需求不能被表示为本题中的术语分层结构,使用规则形式的知识表示却很必要。自动获取这类知识对于从文本中建立规则库非常有用。为辅助专业人员和妇产科医生给与病人适当的诊疗方案,本文提出一个基于OWL+SWRL规则的决策支持系统。 该系统可以使用数据挖掘技术和NLP工具从文本中提取SWRL表示的演绎知识 获取更强大的关系表达,允许推理和产生新的实体。其思想包含解析一系列的医学报告丰富和利用已存在的领域本体

研究方法

建立系统的三个目标:

  1. 检测带有复杂语法内容文本的知识
  2. 构建包含不同元素类型的规则-classes, properties, instances, literals(已存在的方法只关注classes和object)
  3. 获取规则的前述词和后述词部分,以便于生成更为连贯一致的规则

工具

  • WordNet :用于识别术语
  • Unified Medical Language System:用于识别医学术语
  • Gate extractor:基于不同的分析模块建立提取链

过程

  • 系统的输入:已存在的知识(一个本体)+自由文本
  • 准备语料:手动从医院档案中收集医学报告
  • 语义分析:(文本分解模块)tokenization->POS Tagging->assign lemma to each token->filter words(reduce stop words…)、(标记识别模块)利用关键词和JAPE rules对与标记相关的术语进行标注,并识别Marker类型词的前部和后部、(匹配模块)使用本体实体字典、Jaro-Winkler 距离、相关的近义词比较前一个模块输出的词元,输出对应的本体信息(concepts, instances, properties, and literals)
  • SWRL规则生成:(三元组构建)将语义分析部分得到的信息配对->使用已存在的本体语义信息构建有效的三元组形式(< argument, relation, argument >)、(SWRL规则生成器)将三元组转换为中间形式(triple < C1, R, C2 > becomes R (C1 (x), C2 (y)) )->通过选择更明确的中间形式移除重复的连接,消除冗余->将剩余的中间形式转换为SWRL语言
    在这里插入图片描述

小结

该方法的优势:

  • 该方法生成的SWRL规则可以基于本体进行语义验证

局限:

  • 不能处理< class, Datatype property > 或者 < instance, Datatype property>,当Datatype property是一个列表时不能确定其值
  • 不能使用布尔值检索literals类型的数据
  • 如果SWRL中的head部分不具有丰富的词汇语法,此方法便不能提取一个一致的head
  • 此方法不能处理数字属性
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值