bert语义相似度计算

最新推荐文章于 2024-02-27 02:55:06 发布

旭旭_哥

最新推荐文章于 2024-02-27 02:55:06 发布

阅读量1.9w

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/luoyexuge/article/details/86305198

版权

机器学习专栏收录该内容

114 篇文章 7 订阅

订阅专栏

bert语义相似性计算，这个和上一块的文本分类模型有点类似，但是segment_ids稍微和文本分类不一样，数据集可以参照蚂蚁金服语义相似度计算的文本（可以搜索蚂蚁金服语义相似比赛数据可以多出下载到），两个句子之间通过[SEP]分割，[CLS]的向量作为分类的输入，标签是两个句子是否相似。可以作为排序算法，代码和上面的文本分类情况一样。

度max_length，第一句对应位置（包含[CLS],[SEP]）全为0；第二句对应位置(包含结尾[SEP])全为1，padding为0.

举例下面两个句子使用【sep】隔开，总体长度设置为30，那么句segment_ids输入就是这个，其余代码和文本分类一样：

[CLS] 能不能开花呗老兄 [SEP] 花呗逾期了还能开通 [SEP]

0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0

tokens: [CLS] 为何我无法申请开通花呗信用卡收款 [SEP] 支付宝开通信用卡花呗收款不符合条件怎么回事 [SEP]


input_ids: 101 711 862 2769 3187 3791 4509 6435 2458 6858 5709 1446 928 4500 1305 3119 3621 102 3118 802 2140 2458 6858 928 4500 1305 5709 1446 3119 3621 679 5016 1394 3340 816 2582 720 1726 752 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0



input_mask: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

segment_ids: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

旭旭_哥

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
3
评论
bert语义相似度计算

bert语义相似性计算，这个和上一块的文本分类模型有点类似，但是segment_ids稍微和文本分类不一样，数据集可以参照蚂蚁金服语义相似度计算的文本（可以搜索蚂蚁金服语义相似比赛数据可以多出下载到），两个句子之间通过[SEP]分割，[CLS]的向量作为分类的输入，标签是两个句子是否相似。可以作为排序算法，代码和上面的文本分类情况一样。度max_length，第一句对应位置（包含[CLS...
复制链接

扫一扫