相似度衡量:苏剑林博客-3

本文主要是对苏剑林老师之前的博客中,对相似度相关的内容稍作整理。

Sentence-bert

是利用bert对两个句子判断相似度。

左图是训练期间的相似度计算方法,右图是推来过程中的相似度计算方法。

训练过程中使用时dense-linear方法,推理过程中使用的cosine方法。

 注意到 一点,在u和v两个句子上,训练的时候,采用的是(u,v,|u-v|),其中,|u-v|可能与两个句子之间的相似值关联程度较大。

InferSent

有监督条件下的相似度判断模型。

  1. 比较在各种监督任务上训练的句子嵌入,并表明从在自然语言推理 (NLI) 任务上训练的模型生成的句子嵌入在迁移准确性方面达到了最佳结果。(论文在一些其他NLP任务中做了训练,比较了在其他任务中训练后的模型的词向量生成能力,最后,发现还是在NLI(natural language inference)任务中,效果比较好。)
  2. 研究了句子编码架构对表征可迁移性的影响,并比较了卷积、递归甚至更简单的单词组合方案,发现bi-directional LSTM architecture with max pooling, trained on the Stanford Natural Language Inference (SNLI) dataset上时,模型的表现效果最佳。

训练结构如下:

 simBert

simbert=UniLM+Bert

 

采用的有监督的训练方式,整个任务建模为分类任务,相似的语句应该归为一类,不相似的语句归为一类。

在同一个batch中,把[CLS] SENT_a [SEP] SENT_b [SEP][CLS] SENT_b [SEP] SENT_a [SEP]都加入训练,做一个相似句的生成任务,这是Seq2Seq部分。

另一方面,把整个batch内的[CLS]向量都拿出来,得到一个句向量矩阵V∈Rb×dV∈Rb×dbb是batch_size,dd是hidden_size),然后对dd维度做l2l2归一化,得到V~V~,然后两两做内积,得到b×bb×b的相似度矩阵V~V~⊤V~V~⊤,接着乘以一个scale(我们取了30),并mask掉对角线部分,最后每一行进行softmax,作为一个分类任务训练,每个样本的目标标签是它的相似句(至于自身已经被mask掉)。说白了,就是把batch内所有的非相似样本都当作负样本,借助softmax来增加相似样本的相似度,降低其余样本的相似度。

文本相似度数据

文本相似度比较中,数据一般是以句子对形式出现,如何学习句子对的表示?

原文链接:https://spaces.ac.cn/archives/8860

交互式(Interaction-based)和特征式(Representation-based)两种实现方案,其中交互式是指将两个文本拼接在一起当成单文本进行分类,而特征式则是指两个句子分别由编码器编码为句向量后再做简单的融合处理(算cos值或者接一个浅层网络)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
《动手学深度学习 pytorch.pdf》是一本关于深度学习和PyTorch框架的学习教材。它由苏剑林等人编写,以PyTorch作为工具,全面介绍了深度学习的基本原理和应用。该教材主要分为6个部分,包括深度学习基础、计算机视觉、自然语言处理、生成对抗网络、深度强化学习和工作实践。通过大量的例子和实践,读者可以深入理解深度学习的核心概念以及如何使用PyTorch实现深度学习模型。 首先,教材通过深度学习基础部分介绍了神经网络的基本原理、损失函数、优化算法等核心知识。接着,计算机视觉部分详细解释了图像分类、目标检测、图像风格转换等任务的实现方法。在自然语言处理部分,教材展示了如何用深度学习模型进行文本分类、语义理解等任务。生成对抗网络部分讲解了生成模型、判别模型和生成对抗训练等关键概念。深度强化学习部分介绍了如何使用深度学习与强化学习相结合解决控制问题。最后的工作实践部分通过实际场景案例,指导读者如何将深度学习应用到实际项目中。 《动手学深度学习 pytorch.pdf》内容详实,既有理论知识又有实际应用的案例,适合既想理解深度学习基本原理又想动手实践的读者。无论是初学者还是有一定基础的学习者,都可以通过这本教材系统地学习深度学习和PyTorch。总之,这本教材是学习深度学习的一本宝典,可以帮助读者快速入门并深入掌握深度学习和PyTorch的使用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值