知识抽取涉及的“知识”通常是 清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,
- 从结构化数据中获取知识用 D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等,
- 从链接数据中获取知识用图映射,难点在于数据对齐,
- 从半结构化数据中获取知识用包装器,难点在于 wrapper 的自动生成、更新和维护,
这一篇主要讲从文本中获取知识,也就是我们广义上说的信息抽取。
一、信息抽取三个最重要/最受关注的子任务
1、实体抽取
也就是命名实体识别,包括实体的检测(find)和分类(classify)
实体抽取后,会进行实体统一、指代消解,然后再进行关系抽取
2、关系抽取
通常我们说的三元组(triple)抽取,主要用于抽取实体间的关系:一个谓词(predicate)带 2 个形参(argument),如 Founding-location(IBM,New York)。
关系抽取通常在实体抽取与实体链指之后。在识别出句子中的关键实体后,还需要抽取两个实体或多个实体之间的语义关系。
语义关系通常用于连接两个实体,并与实体一起表达文本的主要含义。
常见的关系抽取结果可以用SPO结构的三元组来表示,即 (Subject, Predication, Object)
例子:中国的首都是北京 ==> (中国, 首都, 北京)
3、事件抽取
相当于一种多元关系的抽取
参考资料:
知识抽取-实体及关系抽取(一)
文献阅读15-OntoILPER:A logic-based relational learning approach关系抽取,NER+RE
关系抽取-END-TO-END NER RE-论文笔记:END-TO-END NAMED ENTITY RECOGNITION AND RELATION EXTRACTION USING PRE-TRAINED LANGUAGE MODELS
在线信息抽取网站:diffbot