博文配套视频课程:自然语言处理与知识图谱
人工 VS 机器构建
从构建技术看,一般由三种形式:自上而下 (适合专业领域),自下而上 (适合公共领域),众包知识图谱 (适合公共领域)
知识图谱经历了由人工构建到群体智慧构建到自动获取、构建的过程。人工构建和自动化构建各有优缺点,而现阶段要兼顾效率和精度,最合理的方式是半自动化结合人工。 目前业内构建知识图谱很少见纯人工和全自动方法,采用的主流方式是半自动结合人工方式,约占 80% 以上。
自动化构建流程
实现全面自动化构建知识图谱还有很长的一段路要走,不过已有不少企业在积极探索降低人工参与度,提升自动化构建水平。其自动化构建流程主要包括
- 本体创建
- 数据标注
- 模型训练
- 知识抽取
- 知识融合
- 知识推理
- 知识更新
知识图谱自动构建的过程中主要运用到了自然语言处理、小样本训练、领域迁移等关键的 AI 技术。自动化构建知识图谱有四大技术重点:如何自动化的从结构化数据库映射为知识图谱并做知识融合;如何通过小样本学习和领域知识迁移的技术减少人工标注成本;如何从非结构化文本中做篇章级的事件抽取和多事件关联;基于深度学习的知识表示在各个构建的环节的应用
构建挑战
目前,知识图谱在构建过程中面临着诸多挑战,主要的技术挑战点有三项:信息丢失:指应该抽取出来的信息没有抽全;信息冗余:指在输入文本中不存在但在背景知识中存在的额外概念和关系;信息重叠:指能否将原文中距离跨度较大的属性归结到正确的实体上,并对动态变化的属性进行适当存储。此外,知识图谱构建成本高昂,小样本的抽取和构建问题,也是业界公认的难题。
应用实践
目前自动化构建的知识图谱主要运用在智能问答、智能推荐、语义搜索、网络行为动态分析等场景中。由于需要大量领域专家的干预,很多特定领域的知识图谱自动化构建的进展有些缓慢,尤其在一些小规模、应用场景复杂、专家知识密集的场景。
不可否认的是知识图谱需要运用到广阔的业务场景里才能够发挥出它的真正价值。