背景
前期研究中建立了一个包含40w条记录的地理领域知识数据库,但作为知识库使用还缺乏规范性,数据库中的数据主要格式为
{s, p, o,}
也就是实体、关系和客体这种关系的三元组表示。
近期查阅文献,看到了相关内容,遂着一小记。
基础知识
RDF与SparQL
知识库多使用RDF格式存储,使用SparQL语言查询知识,文中以“刘德华的妻子出生于哪里”举例,这个问句的SparQL查询为:
select ?y where{
刘德华 妻子 ?x
?x 籍贯 ?y
}
SparQL手册:http://www.chinaw3c.org/REC-sparql11-overview-20130321-cn.html
自然语言处理
使用自然语言查询,必然经过自然语言处理的步骤,此处使用的技术主要是分词、命名实体识别和句法分析,并且经过句法分析后最终得到句法分析树,在这个基础上进行进一步操作。
处理过程
对用户提出的自然语言问题,首先分词&#