KG
知识图谱的系统工程观
知识图谱从哪里来:实体关系抽取的现状与未来
刘焕勇 - 个人主页:KG 学习资料、工具、开源项目
难点:协调准确率和效率、平衡自动化方法和人工参与
- 知识图谱构建主要分为自顶向下(top‑down)与自底向上(bottom‑up)两种构建方式。
自顶向下构建方式需要先定义好本体(Ontology或称为Schema),再基于输入数据(百科类网站等结构化数据源)完成信息抽取到图谱构建的过程。该方法更适用于专业知识方面图谱的构建,比如企业知识图谱,面向领域专业用户使用。
自底向上构建方式则是从开放的Open LinkedData中抽取置信度高的知识,或从非结构化文本中抽取知识,完成知识图谱的构建。该方式更适用于常识性的知识,比如人名、机构名等通用知识图谱的构建。
(〇)本体构建
-
通常有人工、自动和半自动这 3 种构建方法.
半自动构建本体的方法,使用统计方法和无监督OpenIE方法得到本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出了本体,并在众包半自动语义标注过程中进行了完善.
-
【1】 知识图谱本体层理解及利用Protégé进行知识图谱本体层(Schema)的构建
-
【2】 面向垂直领域的OpenIE图谱构建技术
语义标注
- 主要包括本体技术、自然语言处理等技术.
- 语义标注可以分为 手工标注、半自动标注 和 自动标注 三类.
半自动标注是由标注人员指定网页或者网页中的文本片段,然后由标注人员选择合适的本体概念(或属性)或者由系统自动显示可选的本体概念(或属性),最后生成并保存语义标注结果. - 语义标注可以分为 嵌入式存储 和 独立存储 两类.
嵌入式存储方式是指将标注结果嵌入在原始网页中,标注格式可以是 JSON-LD、MicroData、RDFa等,例如 Google 的结构化数据标记辅助工具;
独立存储方式是指将标注结果保存在外部存储中,可以保存到文件中,也可以保存到数据库中,例如开源语义标注工具 Pundit,它可以对任何网页进行标注,标注结果将保存在标注系统后端的数据库中.
(一)信息抽取
信息抽取包括实体抽取、关系抽取和属性抽取.
特征选择
- 通过分词算法对文本中的词汇进行提取,TF-IDF算法进行特征选择