点击左上方蓝字关注我们
继2020年8月份中文依存句法分析工具DDParser发布后,百度于近日发布两款句法分析结果应用工具——基于句法分析的隐式向量表示工具和显式结构表示工具。
句法分析利用句子中词与词之间的关系来表示词语的句法结构信息,如“主谓”、“动宾”、“定中”等。本次发布的两款应用工具分别从隐式和显式两方面利用句法结果,帮助开发者们更快速便捷地引入句法特征来提升任务效果。
DDParser介绍
DDParser(全称为Baidu Dependency Parser)是百度基于大规模标注数据和产业级开源深度学习平台——飞桨研发的中文依存句法分析工具。为了便于开发者快速学习及使用,DDParser采用简单易理解的标注体系,且支持一键安装部署及调用。
了解DDParser详情:
句法分析给出了词之间的语法结构,这种表示不受词之间距离限制,可给出长距离词之间的依赖,如图1所示。但该表示相对复杂,需要开发者有一定的自然语言处理背景,了解句法分析任务及标注标准。
图1 句法分析实例
为了降低句法分析使用门槛,本次发布两款基于句法分析的简单易用的应用工具,分别为:
1)基于句法分析的隐式向量表示:将句法结果蕴含的结构上下文信息编码进文本的隐式表示中,提升文本的语义表示能力。
2)基于句法分析的显式结构表示:从语义角度将句法分析结果以简单易理解的结构呈现出来(如主谓宾、动补、名词修饰等结构),便于开发者直接获取输入文本的结构化语义单元。
工具一:基于句法分析的隐式向量表示工具
常用的句子表示模型(如序列表示模型LSTM)基于顺序上下文给出当前词的表示,其会受限于词之间的距离,对长距离上下文依赖变弱。句法分析从语法结构上给出当前词依赖的上下文,尤其可给出长距离依赖的上下文,其弥补常用句子表示模型的不足之处。
本次发布的基于句法分析的隐式向量表示工具将句法信息编码进隐式向量表示中。如图2中“基于句法树的图注意网络”所示,本文将依存句法分析树看作一个有向无环图,在该图上应用基于图的注意力网络机制获取包含句法信息的表示。该向量表示与基于序列模型得到的向量表示连接在一起作为输入文本最终的向量表示,增强了输入文本的表示能力。其在下游任务中的使用方式见图2。
图2 基于句法分析的隐式向量表示及应用示意图
本工具应用于事件抽取、相似度计算任务,基于句法分析的隐式向量表示带来了显著效果提升。具体指标见表1。
表1 句法信息在事件抽取和相似度计算任务上的表现
在事件抽取任务上,为了更好地说明句法分析的作用,表2给出相关实例。由此可见,引入句法信息后,模型能够学习到触发词与相关角色的句法路径,进而提升了角色识别的召回率。
表2 实例展示:句法信息引入事件抽取任务
在相似度计算任务上,引入句法信息主要解决字面重合度高,但结构相同/不相同导致的语义一致/不一致的数据的计算问题,具体实例见表3。
表3 实例展示:句法分析引入相似度计算任务
工具二:基于句法分析的显式结构表示工具
句法结构依赖于句子表述方式,语义同义但表述形式不同的两个句子其句法结构往往差异较大。如图3中实例所示,语义单元“纳达尔击败梅德韦杰夫”在3种不同的表述形式下对应3种不同的句法结构。
图3“纳达尔击败梅德韦杰夫”三种不同表述形式对应的句法分析结构
为了方便开发者更直接地获取输入文本中的结构化语义单元,本文研发了基于句法分析的显式结构表示工具,其从文本表达的语义角度出发,直接提取文本中的主要内容并以结构化形式输出。如图4所示,输入文本为“9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫”,本工具抽取出主谓宾结构(纳达尔、击败、梅德韦杰夫)、名词修饰结构(俄罗斯、球员)等。
本工具围绕实体词定义了7种常见结构,覆盖了句法分析可表示的范围,如主谓宾结构、动补结构、名词修饰结构等。
图4 显式结构表示工具输出示例
本工具有多种应用场景。这里将介绍3种应用场景,如图5所示。
图5 显式结构表示工具应用场景
开放域信息获取:基于抽取的语义结构单元,获得开放域信息,协助构建开放语义知识库。
相似度计算:基于抽取的语义结构单元,获取基于结构的匹配度,可作为特征加入到现有相似度计算模型。
数据增广:基于给定的结构,可生成不同表述形式、不同限定条件的数据,用于增广现有数据集。
目前,基于依存句法分析的隐式向量表示工具和显式结构表示工具已经开源,点击“阅读原文”了解更多技术详情,并贡献你的Star和Fork!!!
DDParser项目地址:
https://github.com/baidu/DDParser
如在使用过程中有问题,可加入官方QQ群进行交流:1108045677。
如果您想详细了解更多飞桨的相关内容,请参阅以下文档。
·飞桨官网地址·
https://www.paddlepaddle.org.cn/
·飞桨开源框架项目地址·
GitHub: https://github.com/PaddlePaddle/Paddle
Gitee: https://gitee.com/paddlepaddle/Paddle
微信号 : PaddleOpenSource
END
精彩活动
飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。