domain-specific KG construction for semantic analysis 论文笔记
abstract
目前的大规模通用KG如wikipedia之类并不完整,无法正常获取数据的语义信息,尤其在特定领域,因为训练数据的缺乏、语义歧义及缺乏代表性的本体等,自动化构建大规模通用KG的方法常常失效。本文以文化遗产领域为例,尝试解决构建领域本体,自动化构建知识图谱。
在文化遗产领域构建KG的过程中,主要的挑战在于:
- 通用的NER方法在识别该领域的实体时常常失效;
- 艺术品的title通常含混,从文本中识别其提及的内容比较困难,需要领域专业知识;
- 一些格式化的提示如粗体、大写、引号等,也不能确保被识别,尤其在数字化扫描的文本中还有很多噪音,加剧了难度。
problem statement
- 如何从文化遗产数据库中利用NER提出艺术品title?一般而言,NER仅针对person、org、loc、date等类,对于特定领域而言,细粒度的NER or FiNER时必不可少的。但之前的FiNER并未明确将艺术品名称识别为命名实体。
- 如何将文化遗产实体以有意义的关系连接起来?了解领域内实体之间的关系至关重要。全面的文化遗产KG不仅包括艺术品和艺术家实体,还包括了文化机构、风格、拍卖行、展览等,领域本体可以通过限制两个实体间关系的种类来充当自动发现关系的指南。可以通过利用现有的KG来获取一组初始关系,再用学习模型进一步训练推断其他关系,但是由于领域知识分布的偏斜以及不完整表示(在通用KG中表示文化遗产的实体关系并不多),仅通过对通用KG的再利用来构建准确完整的领域KG是不太可能的。为使KG对领域专家的语义探索有实际作用,就需要进一步丰富KG,即第三个研究问题。
- 艺术KG的丰富如何使语义探索更加高效?文化遗产的实体和关系的丰富对专家而言很有用。包括艺术品的溯源、艺术家之间的关系等。利用多语言的文化遗产的收集,KG也得到进一步丰富。此外通过聚类分析进行推理任务如艺术家的艺术风格确认等。
本论文未提出有效的实验方法,仅给出了针对文化遗产知识图谱的初步ner试验结果。