0.引入
空间关系是指存在于实体之间的具有空间特征的关系,如方位关系、距离关系、拓扑关系、层次关系等。空间关系在自然语言描述中一般具有三个部分或者两个层次。三个部分是从认知学的角度出发的将其分为射体、界标和方位词,其中:
- 射体是空间关系中的主体成分。
- 方位词是用来描述实体之间的空间方向和位置关系的,通常与其前面的名词构成句子中的处所格。
- 界标则为射体的方位提供了参照物依据。
例如S1:杯子在桌子上。S1 中包含空间表达式(在,上,桌子)。
则杯子为射体,桌子为界标,上为方位词。
获取空间关系就需要找出句子中的空间表达式。首先要对原始语料进行预处理。然后抽取其中的空间关系。
1.语料预处理
1.1. 获得句子分词后的依存关系
基于哈工大的自然语言处理技术,使用它的API对句子进行分词,并得到它的依存关系。
用户通过指定API参数来获取对应的结果,语言云服务的API参数集链接如下:
http://www.ltp-cloud.com/document/
在语言云中,所有的API访问都是通过HTTP请求的方式。并且需要从api.ltp-cloud.com域进行访问。语言云只支持GET和POST方式的HTTP请求。用户通过在HTTP请求中指定参数来获取对应的结果。
举个例子,对“房顶上落着一只小鸟”这句话做依存句法分析。
这句话的依存关系的句子视图如下:
图1-1例句的依存关系
返回xml格式的结果。GET请求及返回结果示例:
GET http ://api.ltp-cloud.com/analysis/?api_key=U1H0S1Z1CkcUtrLouJvyHVNSOWkY9ycmAVahcduW&text=房顶上落着一只小鸟&pattern=all&format=xml
图1-2 例句的xml标准结果
- 这句话的XML标准结果如下:结点标签分别为 xml4nlp, note, doc, para, sent, word,arg 共七种结点标签:
1、xml4nlp 为根结点,无任何属性值;
2、note 为标记结点,具有的属性分别为:sent, word, pos, ne, parser, srl;分别代表分句,分词,词性标注,命名实体识别,依存句法分析,词义消歧,语义角色标注;值为”n”,表明未做,值为”y”则表示完成,如pos=”y”,表示已经完成了词性标注;
3、doc 为篇章结点,以段落为单位包含文本内容;无任何属性值;
4、para 为段落结点,需含id 属性