预训练模型语义相似性计算(三)--simbert

最新推荐文章于 2023-03-06 22:44:43 发布

choose_c

最新推荐文章于 2023-03-06 22:44:43 发布

阅读量3.4k

点赞数 1

分类专栏：深度学习自然语言处理文本表示文章标签：自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/choose_c/article/details/114222384

版权

自然语言处理同时被 3 个专栏收录

43 篇文章 6 订阅

订阅专栏

33 篇文章 0 订阅

订阅专栏

13 篇文章 1 订阅

订阅专栏

最近有在做一个相似句的任务，使用的SetenceBERT模型，对模型进行了一些参数的调优和BERT-flow方向的实验测试。今天介绍的simbert是结合了检索和文本生成的模型，这个是在看文本增强时看到的方法，但是又是可以进行相似句计算的，所以想记录一下。

使用BERT模型进行文本增强的思路有两种：1.对输入进行MASK后，输入BERT后进行补全；2.生成方式。

MASK补全的方法在中文中有一个问题就是BERT是字符级别的，所以MASK的单位也是字符单位的。如tinyBERT中进行文本增强的方式是单个字符时使用BERT进行MASK补全，而多个字符则使用glove相似embedding进行替换。如果连续MASK多个字符的话，直觉来说应该会影响补全效果，可以尝试使用词MASK的BERT相关模型变体，具体可以进行相应的增强实验。第二种文本生成的的方法存在的问题就是文本不可控吧，具体效果可以加载模型进行尝试，同时也有相关的文本增强包收录了该模型。

simbert使用相似句对的数据进行微调bert，损失函数由两部分：1.seq2seq部分，使用UNILM的方式；2.相似句分类的损失。

这边可以直接看作者的博文：鱼与熊掌兼得：融合检索和生成的SimBERT模型。其中使用的bert4keras和模型训练代码。

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
预训练模型语义相似性计算(三)--simbert

最近有在做一个相似句的任务，使用的SetenceBERT模型，对模型进行了一些参数的调优和BERT-flow方向的实验测试。今天介绍的simbert是结合了检索和文本生成的模型，这个是在看文本增强时看到的方法，但是又是可以进行相似句计算的，所以想记录一下。使用BERT模型进行文本增强的思路有两种：1.对输入进行MASK后，输入BERT后进行补全；2.生成方式。 MASK补全的方法在中文中有一个问题就是BERT是字符级别的，所以MASK的单位也是字符单位的...
复制链接

扫一扫

专栏目录

choose_c CSDN认证博客专家 CSDN认证企业博客

码龄8年

76: 原创

6万+: 周排名

2万+: 总排名

13万+: 访问

: 等级

1445: 积分

122: 粉丝

157: 获赞

33: 评论

382: 收藏

私信

关注

热门文章

分类专栏

文本表示 13篇
RAG 3篇
ACL2023 2篇
深度学习 33篇
大模型 3篇
langchain 1篇
chatgpt 1篇
shell
tensorflow 2篇
机器学习 17篇
自然语言处理 43篇

最新评论

大模型时代下两种few shot高效文本分类方法
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
RAG常见七大坑
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
OpenAI的Function calling 和 LangChain的Search Agent
choose_c: langchain的agent是通过设计prompt实现，function calling是openai API调用自带的功能，内部实现我猜也是通过prompt实现。openai的prompt效果应该会比第三方的prompt写的更合适吧。
OpenAI的Function calling 和 LangChain的Search Agent
鸡腿的梦想: 您好请问langchain 和 function calling的区别在哪呢为什么function calling能够提升这么多的性能
SBERT实验详情
我先润了: 请问在sbert要怎么使用crossencoder呀，我用biencoder准确率只有84%

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。