基于依存关系的空间关系抽取算法

0.引入

空间关系是指存在于实体之间的具有空间特征的关系,如方位关系、距离关系、拓扑关系、层次关系等。空间关系在自然语言描述中一般具有三个部分或者两个层次。三个部分是从认知学的角度出发的将其分为射体、界标和方位词,其中:

  1. 射体是空间关系中的主体成分。
  2. 方位词是用来描述实体之间的空间方向和位置关系的,通常与其前面的名词构成句子中的处所格。
  3. 界标则为射体的方位提供了参照物依据。

例如S1:杯子在桌子上。S1 中包含空间表达式(在,上,桌子)。
则杯子为射体,桌子为界标,上为方位词。

获取空间关系就需要找出句子中的空间表达式。首先要对原始语料进行预处理。然后抽取其中的空间关系。

1.语料预处理

1.1. 获得句子分词后的依存关系

基于哈工大的自然语言处理技术,使用它的API对句子进行分词,并得到它的依存关系。
用户通过指定API参数来获取对应的结果,语言云服务的API参数集链接如下:
http://www.ltp-cloud.com/document/
在语言云中,所有的API访问都是通过HTTP请求的方式。并且需要从api.ltp-cloud.com域进行访问。语言云只支持GET和POST方式的HTTP请求。用户通过在HTTP请求中指定参数来获取对应的结果。
举个例子,对“房顶上落着一只小鸟”这句话做依存句法分析。
这句话的依存关系的句子视图如下:

例句的依存关系
图1-1例句的依存关系

返回xml格式的结果。GET请求及返回结果示例:
GET http ://api.ltp-cloud.com/analysis/?api_key=U1H0S1Z1CkcUtrLouJvyHVNSOWkY9ycmAVahcduW&text=房顶上落着一只小鸟&pattern=all&format=xml

例句的xml标准结果
图1-2 例句的xml标准结果

  1. 这句话的XML标准结果如下:结点标签分别为 xml4nlp, note, doc, para, sent, word,arg 共七种结点标签:
    1、xml4nlp 为根结点,无任何属性值;
    2、note 为标记结点,具有的属性分别为:sent, word, pos, ne, parser, srl;分别代表分句,分词,词性标注,命名实体识别,依存句法分析,词义消歧,语义角色标注;值为”n”,表明未做,值为”y”则表示完成,如pos=”y”,表示已经完成了词性标注;
    3、doc 为篇章结点,以段落为单位包含文本内容;无任何属性值;
    4、para 为段落结点,需含id 属性࿰
  • 9
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值