长文本匹配 - Supervised Contrastive Learning for Interpretable Long-Form Document Matching(CoLDE) 阅读笔记

系列文章目录

长文本匹配 - CoLDE



前言

研究领域:semantic text matching for long-form documents
pdf
项目代码


一、背景

模型:提出了CoLDE(Contrastive Long Document Encoder),基于Transformer的框架,允许长文档之间的可解释的比较。
目标:同一文档中的段落表征应当彼此接近,不同文档中的段落则应在潜在表征空间中彼此远离。此外,与完全不同类型的文档相比,属于同一类型的文档的表征应当彼此接近。
总结3种不同的文档相似性:

  • 一对文档间的高阶相似度
  • 文档中不同段落间的相似度
  • 同一文档(及其他文档)中不同分块间的相似度

二、方法

1.数据增强

将长文档分割成多个部分,并进一步将每个部分划分为不超过512个token的块,来处理长文档。这种数据增强方法充分利用了长文档的结构。

2.独特的位置嵌入

在这里插入图片描述为了捕捉文档结构信息,CoLDE为每个部分和块分配了独特的位置嵌入,
- 段落嵌入(Section Embeddings):对于每个段落,分配一个唯一的位置嵌入
- 块嵌入(Chunk Embeddings):对于每个块,分配一个唯一的ID
- 标记嵌入(Token Embeddings):对于每个token,使用BERT模型的标准token嵌入 ​
这些嵌入相互结合,增强了输入数据的结构信息。

3.多头的块级注意力层

在这里插入图片描述
段落间的块级注意力的计算:通过将 段落𝑝 中的每个块视为Query(𝑄),段落𝑝+1 的块被视为计算注意力的Keys(𝐾),同时段落𝑝 + 1 的块也用于计算值Values(𝑉)

4.降维

采用Bi-LSTM对分段的块表示进行聚合,以获得与分段 𝑥𝑙 相对应的中间高维段落表示 𝑧𝑙,其中 𝑙 是段落编号。 该中间段落表示 𝑧𝑙 = 𝑓 (𝑥𝑙) 进一步提供给投影层 𝑃𝑟𝑜𝑗 (.) 以减少维度,从而产生最终的段落级表示 𝑧𝑙 = 𝑃𝑟𝑜𝑗(𝑧𝑙)。

5.监督对比学习

采用监督对比学习框架,通过对比损失函数训练模型,使得同一文档内部分的表示更接近,而不同文档的部分表示更远离。
在这里插入图片描述
对比学习的目标函数会鼓励模型使得正样本(同一文档的不同部分或块)之间的相似度得分高于负样本(不同文档的部分或块)。通过这种方式,模型不仅能够学习到文档的局部特征(通过块嵌入),还能够理解文档的全局结构(通过部分嵌入)。


  • 25
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值