预训练模型语义相似性计算(三)--simbert

        最近有在做一个相似句的任务,使用的SetenceBERT模型,对模型进行了一些参数的调优BERT-flow方向的实验测试。今天介绍的simbert是结合了检索和文本生成的模型,这个是在看文本增强时看到的方法,但是又是可以进行相似句计算的,所以想记录一下。

        使用BERT模型进行文本增强的思路有两种:1.对输入进行MASK后,输入BERT后进行补全;2.生成方式。

        MASK补全的方法在中文中有一个问题就是BERT是字符级别的,所以MASK的单位也是字符单位的。如tinyBERT中进行文本增强的方式是单个字符时使用BERT进行MASK补全,而多个字符则使用glove相似embedding进行替换。如果连续MASK多个字符的话,直觉来说应该会影响补全效果,可以尝试使用词MASK的BERT相关模型变体,具体可以进行相应的增强实验。第二种文本生成的的方法存在的问题就是文本不可控吧,具体效果可以加载模型进行尝试,同时也有相关的文本增强包收录了该模型。

        simbert使用相似句对的数据进行微调bert,损失函数由两部分:1.seq2seq部分,使用UNILM的方式;2.相似句分类的损失。

        这边可以直接看作者的博文:鱼与熊掌兼得:融合检索和生成的SimBERT模型。其中使用的bert4keras模型训练代码

      

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值