基于多级注意力融合机制的藏文实体关系抽取

【摘 要】与中英文相比,藏文实体关系训练语料规模较小,传统有监督的学习方法难以获得较高的准确率。针对基于远程监督的实体关系抽取存在错误标记的问题,利用远程监督方法将知识库与文本对齐,构建藏文实体关系抽取的数据集,提出一个基于多级注意力融合机制的藏文实体关系抽取模型。在词级别引入自注意力机制来提取单词的内部特征,在句子级别引入注意力机制为每个实例分配权重,从而充分利用包含信息的句子,减少噪声实例的权重。同时引入联合评分函数,修正远程监督的错误标签,并将神经网络与支持向量机结合,实现藏文实体关系分类。实验结果表明,提出的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。

【关键词】藏文 ; 实体关系抽取 ; 多级注意力融合机制 ; 支持向量机

1 引言

实体关系抽取从无结构化文本中自动抽取实体对之间的语义关系,并构建结构化的知识,为知识图谱、问答系统等研究提供重要的支撑。相比于语料丰富的中英文领域,藏文实体关系训练语料规模较小,传统有监督的学习方法难以获得较高的准确率。为了解决训练语料不足的问题,Mintz M等人提出了利用远程监督自动生成训练语料的方法,其主要思想是对齐知识库和文本,将对齐后的句子构建成实体关系抽取的训练数据,并用其训练关系抽取器,预测文本中实体对之间的关系。

基于远程监督的方法可以为藏文实体关系抽取自动标注大规模的数据,然而,在远程监督方法中,假设对于知识库中的三元组<e1,r,e2>,文本中所有出现了实体e1和e2的句子都被认为是关系r的训练数据,这样会导致假设性太强,不可避免地出现错误标记的问题,影响实体关系抽取的准确率。

本文基于远程监督方法ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宋罗世家技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值