SimBERTv2 融合检索和生成的RoFormer-Sim模型

 

RoFormer-Sim 是 SimBERT 的升级版,我们也可以通俗地称之为 “SimBERTv2”,而 SimBERT 则默认是指旧版。从外部看,除了基础架构换成了 RoFormer 外,RoFormer-Sim 跟 SimBERT 没什么明显差别,事实上它们主要的区别在于训练的细节上,我们可以用两个公式进行对比:

图片

开源了预训练,338m

训练环境:

tensorflow 1.14 + keras 2.3.1 + bert4keras 0.10.6

 

除此之外,RoFormer-Sim 用到了更多的训练数据,并且拓展到了一般句式,也就是说,不同于 SimBERT 仅仅局限于疑问句,RoFormer-Sim 可以用来做一般句子的相似句生成,适用场景更大。其他训练细节还包括 RoFormer-Sim 用了更大的 batch_size 和 maxlen 等,这些在后面我们都会进一步介绍。

开源地址:

https://github.com/ZhuiyiTechnology/roformer-sim

 

图片

语料

SimBERT 和 RoFormer-Sim 的关键之处,都是在于训练语料的构建。RoFormer-Sim 的训练语料包括两部分:1)疑问类型相似句;2)通用类型相似句。对于疑问类相似句,我们还是像 SimBERT 一样,通过收集百度知道的相似问句,然后通过规则进一步清洗,这部分对我们来说已经很成熟了;对于通用类相似句,我们没有现成的地方可以搜集,于是我们提出了两种方案,一定程度上可以无监督地构建(伪)相似句对。

第一个方案是基于“同一个问题的答案是相似的”思想,假如我们有现成的问答语料,该语料对于同一个问题有多个答案,那么我们可以将每个答案分句,然后用一个现成的相似度函数来比较答案之间的相似度,挑出相似度超过某个阈值的句对作为相似句对使用;

第二个方案则是基于“同一篇章的句子是相似的”思想,它更加简单直接一点,就是将每个篇章分句,然后用一个现成的相似度函数两两计算相似度,挑出相似度超过某个阈值的句对作为相似句对使用,显然该方案的合理性更弱,所以它的阈值也更高。

这里涉及到一个“现成的相似度函数”,我们是直接使用 Jaccard 相似度的一个变体,换言之只需要一个规则的、字符级别的相似度就好了,语义上的关联,则通过篇章内部的关联以及预训练模型本身的泛化能力来获得。

通过第一个方案,我们从几个阅读理解数据集中构建了约 450 万个(伪)相似句对;通过第二个方案,我们从 30 多 G 的平行预料中构建了约 470 万个(伪)相似句对;而爬取的问句则达到了约 3000 万个相似句组(一组可以构成多对)。从这个角度看来,问句的数目是远超于一般句式的,所以我们按照 1:1 的方式从中采样,使得每种句式的样本都均衡。

 

图片

生成

RoFormer-Sim 的训练方式跟 SimBERT 基本一样,如下图所示。稍微不同的是,为了增强模型的生成能力,在构造训练语料的时候,我们还随机地将输入句子的部分 token 替换为[MASK],这种预训练方法首先由 BART 提出。而我们跟 BART 的区别在于:BART 是“输入带噪声的句子,输出原句子”,我们是“输入带噪声的句子,输出原句子的一个相似句”,理论上我们的任务还更难。

图片

▲ SimBERT训练方式示意图

生成效果没什么特别好的评测指标,我们直接目测一些例子就好:

gen_synonyms(u'广州和深圳哪个好?')
[
    '深圳和广州哪个好?',
    '广州和深圳哪个好',
    '广州和深圳哪个更好?',
    '深圳和广州哪个更好?',
    '深圳和广州,那个更好?',
    '深圳和广州哪个好一些呢?',
    '深圳好还是广州好?',
    '广州和深圳哪个地方好点?',
    '广州好还是深圳好?',
    '广州和深圳哪个好一点',
    '广州和深圳哪个发展好?',
    '深圳好还是广州好',
    '深圳和广州哪个城市更好些',
    '深圳比广州好吗?',
    '到底深圳和广州哪个好?为什么呢?',
    '深圳究竟好还是广州好',
    '一般是深圳好还是广州好',
    '广州和深圳那个发展好点',
    '好一点的深圳和广州那边好?',
    '深圳比广州好在哪里?'
]

gen_synonyms(u'科学技术是第一生产力。')
[
    '科学技术是第一生产力!',
    '科学技术是第一生产力',
    '一、科学技术是第一生产力。',
    '一是科学技术是第一生产力。',
    '第一,科学技术是第一生产力。',
    '第一生产力是科学技术。',
    '因为科学技术是第一生产力。',
    '科学技术是第一生产力知。',
    '也即科学技术是第一生产力。',
    '科学技术是第一生产力吗',
    '科技是第一生产力。',
    '因此,科学技术是第一生产力。',
    '其次,科学技术是第一生产力。',
    '科学技术才是第一生产力。',
    '科学技术是第一生产力吗?',
    '第二,科学技术是第一生产力。',
    '所以说科学技术是第一生产力。',
    '科学技术确实是第一生产力。',
    '科学技术还是第一生产力',
    '科学技术是第一生产力对吗?'
]

总的来说,初步实现了任意句式的相似扩增,但问句的扩增效果优于一般句型,这是因为训练语料中问句的质量就明显高于一般句型。由于进行了仿 BART 式训练,所以除了直接进行相似句生成外,我们还可以自行把某些部分 mask 掉,让模型自行发散扩充,比如:

gen_synonyms(u'科学技术是第一生产力。', mask_idxs=[6, 7])  # mask掉“第一”
[
    "科学技术是第一生产力",
    "2、科学技术是第一生产力。",
    "科学技术是第一生产力,也是第二生产力。",
    "科学技术是第一生产力,科学发展是第二生产力。",
    "9、科学技术是第一生产力。",
    "第一,科学技术是一种生产力。",
    "科学技术是生产力。",
    "科学技术是第二生产力。",
    "科学技术是第一生产力”现在提出来的。",
    "一、科学技术是一种生产力。",
    "科学技术是第一生产力是什么意思",
    "科学技术是一种主要生产力。",
    "一:科学技术是最高生产力。",
    "指科学技术不是第一生产力。",
    "科学技术是第二生产力,第一生产力又是第二生产力。",
    "二、科学技术是一种生产力。",
    "世界上第一种生产力是科学技术。",
    "科学技术是社会主义生产力之一。",
    "第二,科学技术也是第二生产力。",
    "科技是一切生产力。"
]

更多玩法,请大家自行挖掘了。

 

图片

检索

增加一般句式的语料、引入仿 BART 式训练,这些改动都相对来说提升了生成模型的效果。然而,我们意外地发现,检索模型(即句子编码模型)的效果却降低了。估计的原因,可能是更多的语料、更大的噪声虽然加大了生成模型的难度,但对于对比学习来说,这些不同句式的或者带噪声的样本作为负样本,反而是难度降低了。比如,如果一个 batch 同时有疑问句和陈述句,那么模型可以简单地通过句式(而不是语义)就可以识别出不少负样本,从而降低了对语义的理解能力。

当然,SimBERT 和 RoFormer-Sim 的本质定位都是相似句扩增模型,检索模型只是它的“副产品”,但我们仍然希望这个“副产品”能尽可能好一些。为此,我们在 RoFormer-Sim 训练完之后,进一步通过蒸馏的方式把 SimBERT 的检索效果转移到 RoFormer-Sim 上去,从而使得 RoFormer-Sim 的检索效果基本持平甚至优于 SimBERT。蒸馏的方式很简单,假如对于同一批句子,SimBERT 出来的句向量为 ,RoFormer-Sim 出来的句向量为 ,那么就以:

图片

为 loss 进行学习,这里 。当然,为了防止模型“遗忘”掉生成模型,蒸馏的同时还要加上生成损失,即 。蒸馏不需要很多步,大致 5000 步左右就可以训练完成了。

无监督语义相似度哪家强?我们做了个比较全面的评测一样,我们用同样的任务对比了 SimBERT 和 RoFormer 的检索效果(其中每一格的三个数据,分别代表“不加 whitening”、“加 whitening”、“加 whitening-256”的效果,同之前的评测):

图片

从表中可以看出,不管加不加 whiteining,RoFormer-Sim 在大部分任务上都超过了 SimBERT,可见蒸馏之后的 RoFormer-Sim 的检索效果确实能获得提高,这个“副产品”也不至于太差了。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值