一、知识抽取任务(实体抽取、关系抽取、事件抽取构建数据库)
从不同来源、结构的数据中进行知识抽取,形成知识存入到知识图谱
- 结构化数据:链接数据、数据库
- 半结构化数据:表格列表
- 纯文本数据(NLP领域--信息抽取)
最终形成RDF三元组、多元组事件、时序信息
子任务:
- 命名实体识别:检测及分类
- 术语抽取---文献资料、MOOC进行术语的抽取,形成知识点知识图谱
- 关系抽取
- 事件抽取:触发词(确定事件)、时间、地点、攻击者、伤亡人数
- 共指消解(Co-reference Resolution CR)
- 实体抽取:对一个句子进行序列标注,人工特征有:
- 词本身特征(边界特征、词性、依存关系)
- 前后缀特征
- 字本身特征(是否是数字、是否是字符)
2.关系抽取
基于触发词:如夫妻、配偶、老婆等-----词法分析
基于句法分析:
3事件抽取
二、结构化数据的知识抽取
三、半结构化数据的知识抽取
四、基于百科数据的知识抽取
五、面向文本的知识抽取
- DeepDive关系抽取实战
- 开放域关系抽取