基于bert的中文语义匹配模型,判断两句话是不是同一个意思

最新推荐文章于 2025-01-30 23:10:51 发布

datayx

最新推荐文章于 2025-01-30 23:10:51 发布

阅读量5.6k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/demm868/article/details/103052327

版权

640?wx_fmt=gif

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程公众号：datayx

日趋增多的网络信息使用户很难迅速从搜索引擎返回的大量信息中找到所需内容。自动问答系统为人们提供了以自然语言提问的交流方式，为用户直接返回所需的答案而不是相关的网页，具有方便、快捷、高效等特点。

本文的核心是句子相似度的计算，可以使用TF-IDF和word2vec两种方法对问句进行向量化，并在此基础上使用进行句子相似度的计算。

也可以利用深度学习模型做句子配对，即给定用户描述的两句话，用算法来判断是否表示了相同的语义。若语义相同则判断为1，不相同则为0.

了解更多

https://blog.csdn.net/fkyyly/article/details/86016703

640?wx_fmt=png

如果能够找到相应的问题，就可以直接将问题所对应的答案返回给用户，而不需要经过问题理解、信息检索、答案抽取等许多复杂的处理过程，提高了效率。FAQ(Frequently Asked Questions)系统在根据用户问题建立候选问题集的基础上，建立常问问题集的倒排索引，提高了系统的检索效率，同时，与传统的基于关键词的方法相比，用基于语义的方法计算相似度提高了问题的匹配精度。

FAQ问答系统是一种已有的“问题-答案”对集合中找到与用户提问相匹配的问句，并将其对应的答案返回给用户的问答式检索系统。由于FAQ问答系统免去了重新组织答案的过程，可以提高系统的效率，还可以提高答案的准确性。这其中要解决的一个关键问题是用户问句与“问题-答案”对集合中问句的相似度比较，并把最佳结果返回给用户。

利用预训练的中文模型实现基于bert的语义匹配模型

数据集为LCQMC官方数据、代码下载地址

关注微信公众号 datayx 然后回复文本相似即可获取。

AI项目体验地址 https://loveai.tech

训练脚本 train.sh

批量测试脚本 predict.sh

利用模型进行单条语句测试 intent.py

chinese_L-12_H-768_A-12为预训练的相关模型和词典

下载地址

https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

下载后解压，放在项目根目录

data文件夹中为训练语料，验证语料，测试语料数据集为LCQMC官方数据

参数说明：max_seq_length sentence的最大长度（字） train_batch_size batch_size的大小

max_seq_length = 50

eval_accuracy = 0.87207

test_accuracy = 0.86272

max_seq_length = 40

eval_accuracy = 0.88093615

test_accuracy = 0.86256

训练过程

640?wx_fmt=png

阅读过本文的人还看了以下：

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加： datayx

640?wx_fmt=jpeg

长按图片，识别二维码，点关注

AI项目体验

https://loveai.tech

640?wx_fmt=png

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

datayx 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。