Construction and application of Chinese breast cancer knowledge graphbased on multi-source heteroge

摘要:提出了一个从多元异构数据构建乳腺癌知识图谱的框架(BCKG),可以支持知识问答,乳腺癌术后随访和保健,提高乳腺癌诊断,治疗和管理的质量和效率

本文提取的三元组来源于临床指南,医学百科全书和电子病历

框架:应用多种知识提取方法,从多元异构数据提取乳腺癌相关知识并通过知识融合构建知识图谱。

方法:1本体建模2知识提取3知识融合和构建知识图谱

1本体(描述领域中实体,概念,属性和他们之间的关系)建模:用pretege构建的本体模型,(自顶向下或自底向上或两者结合)pretege是知识图谱编辑器和本体构建工具,用户能够定义概念属性和关系,支持描述逻辑的本体语言Web Ontology Language(OWL)。pretege还能进行本体的可视化编辑、推理、验证

知识提取:本文从三种高质量数据源中提取知识,临床指南(非结构文本化数据,半结构化表格数据),医学百科全书(结构化infobox和半结构化文本),病历(非结构化文本数据),由于三种数据源的格式和特点不同,本文采用不同的方法进行知识提取。

临床指南中的非结构化文本数据:联合学习模型:将实体识别和关系提取建模为统一任务,采用统一的参数更新策略,关系提取的结果直接反馈给模型来更新整体参数,从而优化实体识别结果。

该方法将实体识别和关系建模建模为令牌对分类任务,m个关系使用mn×n矩阵建模,n是文本中的字符数。

半结构化表格数据提取:本文设计了表提取模型(TEM),由命名体识别模型(Bert+BiLSTM+CRF)和文本匹配模型(Bert+ESIM)两部分构成。将表标题作为文本匹配任务,与关系文本进行语义匹配,匹配度最好的作为实体间的关系。

思路一:医学百科全书:结构化infobox,html解析提取,还可以用模式匹配或者nlp分词处理。

半结构化文本:将所有文本拼在一起,再进行联合提取

病历:包含多种类型的事件,如疾病的诊断,手术,药物治疗,这些事件又包含医院,时间和症状等事件元素。

知识融合:本体融合:因为本体融合包含更少的数据影响很多实体和三元组,本文采用医学专家和知识图谱专家开发的手动整理和映射的方法。

实体融合根据成分词典对术语进行拆分,对不同的成分赋予不同的的权重

评估:三元组:准确率

       知识融合:TOP@N:召回的前n个匹配结果中的正确率

        事件提取:精确率,召回率,f1scor

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值