本学期我们小组进行创新项目实训,内容为编写一个可用于查看科技文献知识图谱的应用。
简述知识图谱
信息是指外部的客观事实;知识是对外部客观规律的归纳和总结,属于高级信息,更能为我们所用。1
知识图谱是将复杂的知识领域可视化表现,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
知识图谱本质上是语义关系网络,把所有不同种类的信息连接在一起,因此知识图谱提供了从“关系”的角度去分析问题的能力。
关于本应用
通过构建关于科技文献的知识图谱,我们致力于帮助学生、学术研究者与工作者在文献查阅过程中更加方便和快捷。预期功能设为:
-
查询相关概念。用户输入关键词后,可以查看与该关键词相关的文献与概念(关键词显示热度),以及以该概念为中心的知识图谱网络;
-
查询作者与机构。用户输入作者/机构后,可以查看该作者/机构在科技领域的发展重心,了解近期的工作内容;
-
整体查看知识图谱。用户可以查看整个领域的知识图谱,为用户展示一个全面的数据可视化关系网络。
如何构建知识图谱
构建知识图谱的主要流程包含知识抽取、知识表示、知识融合和知识存储。根据本应用的实际功能,我们的数据主要来源于各大主流论文网站。即从非结构化文本中自动抽取三元组(Subject-Predicate-Object)知识并构建知识图谱,我们最需要关注的核心技术是命名实体识别和关系抽取。2
关系抽取
我们使用的是浙江大学知识引擎实验室开发的中文关系抽取开源工具——DeepKE3。DeepKE框架提供基于深度学习的关系抽取模型,其中包括基于Transformer、GCN和BERT的模型。