相似度:医学领域:Exploiting Sentence Embedding for Medical Question Answering

Exploiting Sentence Embedding for Medical Question Answering

MACSE 是一篇针对医学文本的句向量表征工作,虽然其主要关注的是 QA 任务,但他的句向量表征方式在文本相似度任务中同样适用。

医学文本区别于通用文本的一大特征就是包含复杂的多尺度信息,如下:
论文的核心是如何学习得到融合多尺度信息的网络模型?

;论文引入监督学习模块CAMSE将语义编码为嵌入张量,然后提出两种完整的评分策略:语义匹配评分(SMS)和语义关联评分(SAS),以挖掘给定问题与相应证据文档之间的语义相似性和关联性。

在这里插入图片描述
学习框架由两个主要部分组成:1)句子嵌入产生模块;2)评分模块。前者是通过上下文自我关注和多尺度技术将一个句子编码为一个嵌入张量而开发的。这个模块被称为上下文自我关注多尺度句子嵌入(CAMSE)。 后者采用了两种评分策略。语义匹配评分(SMS)和语义关联评分(SAS)

SMS是semantic matching score
SAS 是Semantic Association scre

以医学文本为例,大量的医学术语是由几个连续的词组成的,如急性上呼吸道感染。这就要求在词和句子层面上有一个灵活的尺度,将这些连续的词作为一个单元进行编码,并将单元中的词分配给类似的注意力,而不是将其视为一袋不相关的词,在计算成对的词的相似性时,很容易被长段落中的噪声词误导。**语境自我关注和多尺度策略(contextual self-attention and multi-scale strategy)**产生了句子嵌入张量,捕捉了来自句子的多尺度信息。语境注意是注意值的软分配,而多尺度策略是顺序词的硬绑定。

模型结构

知识粒度,可以通过不同大小的CNN卷积层来体现。

在这里插入图片描述

两个评分计算公式:

SMS: Semantic Matching Scoring
在这里插入图片描述
SAS: Semantic Association Scoring
在这里插入图片描述

矩阵门

我们使用矩阵门来确定哪些语义对在答案预测中起关键作用,而含有不相关信息的语义对应被丢弃。

在这里插入图片描述

在计算得到相似度向量之后,通过了线性层,(文中给出的解释是:尽管不同语义的单词没有对齐,但它们可能经常在数据中同时出现。完全连接的层利用了同现的优势,作为SMS ap方法的补充。),计算相似值。

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值