基于依存树相似度算法讨论

这个号上全是关于中文智能语言方向的,可能不太理解为什么会出现纯算法的博客,这里简单说明一下,在中文相似度计算的各个方向中,句法分析是不太出名的一条路,而其中最有代表性的就是依存树分析。

在我上一篇博客中提到过依存树的问题,最后说到依存树是无法直接使用的,需要进行进一步的处理,这进一步的处理方法很多,我另辟蹊径采用了两种途径,由于目前还处于保密状态我会在七月公开一部分代码,现在只提供一条技术路线的完整思路。

首先我们解释一下依存关系。依存关系是基于分词结果的,关系是词和词直接的关系,举一个简单的例子,我是一个很帅的人,这里的帅就是人的修饰关系,很表示程度依存于帅也是一个修饰。词和词之间的关系可以细分为三十多种(斯坦福分析法),根据不同的分析器不同就有不同划分方式数量可能不尽相同这里不做讨论。

依存树,顾名思义就是一个树型结构,这个结构是根据依存关系生成的二叉树。这种结构的好处很多,首先一个就是结构简单方便处理,二叉树可以用递归来写,代码量很少也容易理解,这个是目前处理依存关系的绝对主流方案。现在介绍一下算法的思路:从整棵树的最底层开始向上走,找到每一棵子树,每一颗子树都进行判断是否能够独立形成一个“完整”的句子,也就是是否能够独立表述含义,这里就涉及到句型的总结,英文里基本句式为5种(我读书少你们别骗我,基本的句式就是五种,如果还想跟我挣这个我也没办法),只要满足这五种就被认为是句子。这个对印欧语系的处理效果非常好,因为他们的从句很多常用句式13种中其余8种大部分都是用从句扩充出来的。这种处理方法可以简单判定是否是从句,如果是从句就会被当作一个语元来对待。最终整个句子被归类为五种基本句式的扩充

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
文本相似度计算一直是自然语言处理领域研究中的一个基础问题。而文本语义相似度计算则是在文本相似度计算基础上增加了语义分析,在语义层面对文本相似度作进一步的分析研究,具有广阔的应用背景。本文针对句子级别的文本语义相似度计算问题,提出了应用结构化特征和神经网络的方法,并将该方法应用到一个实际的问答系统中,取得了良好的效果。本文深入研究文本语义相似度计算方法,主要研究内容如下:(1)基于结构化表示的文本语义相似度计算方法针对句子级文本相似度计算方法中平面特征表征性弱的问题,本文提出了应用结构化特征来表示句子级文本的句法、语义等信息。在浅层句法依存关系的基础上,获得了基于短语的浅层句法PST(Phrase-based Shallow Tree)和基于短语的依存PDT(Phrase-based Dependency Tree)的结构化特征,并与平面特征向量相结合,使用支持向量回归模型进行文本语义相似度计算。实验结果表明,加入PST或PDT特征可以分别使皮尔逊相关系数比基准系统提高0.054和0.041。(2)基于Tree-LSTM的文本语义相似度计算方法为了进一步提高长文本语义相似度计算性能,本文提出应用深度学习方法对长文本进行语义相似度计算研究。首先,设计了适合神经网络模型的新的基于短语的浅层句法NPST(New PST)和新的基于短语的依存NPDT(New PDT)结构化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值