使用特定领域的文档构建知识图谱 | 教程

该教程介绍了如何从Word文档中的文本和表格中提取知识,构建知识图谱。利用Python的mammoth库将.docx文件转化为html,结合Watson Natural Language Understanding提取实体和关系,再用基于规则的方法扩展分析结果,从而建立结构化的知识图谱。此模式适用于非结构化数据的分析和处理。
摘要由CSDN通过智能技术生成

640?wx_fmt=png

 

在任何业务中,word文档都是很常见的,它们以原始文本、表格和图像的形式包含信息,所有这些都包含重要的事实。此代码模式[1]中使用的数据来自维基百科的两篇文章。第一个摘自肿瘤学家Suresh H. Advani的维基百科页面,第二个摘自关于肿瘤学的维基百科页面。这些文件被压缩为archive.zip文件[2]。

在下面的图中,有一个关于肿瘤学家Suresh H. Advani的文本信息出现在word文档中,还有一个表格包括他曾获多个机构颁发的奖项。

640?wx_fmt=png


在这个代码模式中,我们解决了从word文档中的文本和表格中提取知识的问题。然后从提取的知识中构建知识图谱,使知识具有可查询性。

而从word文档中提取知识过程中的遇到一些挑战主要为以下两个方面:

  1. 自然语言处理(NLP)工具无法访问word文档中的文本。word文档需要转换为纯文本文件。

  2. 业务和领域专家能够了解文档中出现的关键字和实体,但是训练NLP工具来提取领域特定的关键字和实体是一项很大的工作。此外,在许多场景中,找到足够数量的文档来训练NLP工具来处理文本是不切实际的。

在此模式中我们采用以下方法克服遇到的这些挑战:

  • 使用基于python的mammoth库将.docx文件转化为html文件(半结构化格式)

  • Watson Natural Language Understanding(Watson NLU)用于提取常见的实体。

  • 使用基于规则的方法来扩展Watson NLU的输出(这种方法的解释参见代码模式Extend Watson text Classification [3])。基于规则的方法不需要训练文档或训练工作。算法将配置文件作为输入,而此文件需要由领域专家配置。

  • 使用Watson NLU提取实体之间的关系。

  • 使用基于规则的方法来扩展Watson NLU的输出(这种方法的解释参见代码模式Watson Document Correlation[4])。基于规则的方法不需要训练文档或训练工作。算法将配置文件作为输入,而此文件需要由领域专家配置。

两全其美的方法--同时使用基于训练和规则的方法从文档中提取知识。

在这个模式中,我们将演示:

  • 从包含自由浮动的文本和表格文本的文档中提取信息。

  • 清理数据[3]模式以从文档中提取实体

  • 使用Watson Document Correlation[4]模式提取实体之间的关系

  • 从提取的知识中建立一个知识图谱。

是什么让这个代码模式具有价值:

  • 处理docx文件中的表格和自由浮动文本的能力。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值