相似度衡量：苏剑林博客-3

最新推荐文章于 2024-04-29 00:02:30 发布

YingJingh

最新推荐文章于 2024-04-29 00:02:30 发布

阅读量1.1k

点赞数

分类专栏：相似度文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hekena/article/details/128241666

版权

相似度专栏收录该内容

27 篇文章 1 订阅

订阅专栏

本文主要是对苏剑林老师之前的博客中，对相似度相关的内容稍作整理。

Sentence-bert

是利用bert对两个句子判断相似度。

左图是训练期间的相似度计算方法，右图是推来过程中的相似度计算方法。

训练过程中使用时dense-linear方法，推理过程中使用的cosine方法。

注意到一点，在u和v两个句子上，训练的时候，采用的是（u,v,|u-v|），其中，|u-v|可能与两个句子之间的相似值关联程度较大。

InferSent

有监督条件下的相似度判断模型。

比较在各种监督任务上训练的句子嵌入，并表明从在自然语言推理 (NLI) 任务上训练的模型生成的句子嵌入在迁移准确性方面达到了最佳结果。（论文在一些其他NLP任务中做了训练，比较了在其他任务中训练后的模型的词向量生成能力，最后，发现还是在NLI（natural language inference）任务中，效果比较好。）
研究了句子编码架构对表征可迁移性的影响，并比较了卷积、递归甚至更简单的单词组合方案，发现bi-directional LSTM architecture with max pooling, trained on the Stanford Natural Language Inference (SNLI) dataset上时，模型的表现效果最佳。

训练结构如下：

simBert

simbert=UniLM+Bert

采用的有监督的训练方式，整个任务建模为分类任务，相似的语句应该归为一类，不相似的语句归为一类。

在同一个batch中，把[CLS] SENT_a [SEP] SENT_b [SEP]和[CLS] SENT_b [SEP] SENT_a [SEP]都加入训练，做一个相似句的生成任务，这是Seq2Seq部分。

另一方面，把整个batch内的[CLS]向量都拿出来，得到一个句向量矩阵V∈Rb×dV∈Rb×d（bb是batch_size，dd是hidden_size），然后对dd维度做l2l2归一化，得到V~V~，然后两两做内积，得到b×bb×b的相似度矩阵V~V~⊤V~V~⊤，接着乘以一个scale（我们取了30），并mask掉对角线部分，最后每一行进行softmax，作为一个分类任务训练，每个样本的目标标签是它的相似句（至于自身已经被mask掉）。说白了，就是把batch内所有的非相似样本都当作负样本，借助softmax来增加相似样本的相似度，降低其余样本的相似度。

文本相似度数据

文本相似度比较中，数据一般是以句子对形式出现，如何学习句子对的表示？

原文链接：https://spaces.ac.cn/archives/8860

交互式（Interaction-based）和特征式（Representation-based）两种实现方案，其中交互式是指将两个文本拼接在一起当成单文本进行分类，而特征式则是指两个句子分别由编码器编码为句向量后再做简单的融合处理（算cos值或者接一个浅层网络）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
相似度衡量：苏剑林博客-3

本文主要是对苏剑林老师之前的博客中，对相似度相关的内容稍作整理。
复制链接

扫一扫

专栏目录

YingJingh CSDN认证博客专家 CSDN认证企业博客

码龄4年

342: 原创

2万+: 周排名

1万+: 总排名

24万+: 访问

: 等级

4087: 积分

1889: 粉丝

207: 获赞

47: 评论

648: 收藏

私信

关注

热门文章

分类专栏

最新评论

PDF相关的处理操作
haakaa: csdn这段确实好用
EMNLP-21-Enhanced Language Representation with Label Knowledge for Span Extraction-NER-融入label knowl
小阳不一样666666: 请问作者你复现成功了嘛？我按照论文设置超参数，但是对于ace2005效果只有0.84没有论文的0.86，这是我设置的情况：--task_type=ner --task_save_name=ner111 --data_dir=./data/ace2005 --data_name=ace2005 --model_name_or_path=D:/YangCode/data/bert-large-cased --model_name=SERS --output_dir=./outmodel --result_dir=./result --do_lower_case=False --first_label_file=./data/ace2005/processed/label_map.json --train_set=./data/ace2005/processed/train.json --dev_set=./data/ace2005/processed/dev.json --test_set=./data/ace2005/processed/test.json --label_str_file=./data/ace2005/processed/label_annotation.txt --overwrite_output_dir=True --exist_nested=True --do_train=True --is_chinese=False --val_step=20 --use_attn=True --seed=42 --max_seq_length=128 --dropout_rate=0.1 --learning_rate=3e-5 --task_layer_lr=2 --num_train_epochs=20能帮忙看看问题所在嘛？
EMNLP-21-Enhanced Language Representation with Label Knowledge for Span Extraction-NER-融入label knowl
YingJingh: 那得看你的环境和论文中的环境一不一致
EMNLP-21-Enhanced Language Representation with Label Knowledge for Span Extraction-NER-融入label knowl
小阳不一样666666: 你好，请问这个代码你运行起来了嘛？能咨询你一下嘛？
智源论文前沿记录230610
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/616884058。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

YingJingh 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。