文本相似度

最新推荐文章于 2024-01-11 01:11:24 发布

遨游的菜鸡

最新推荐文章于 2024-01-11 01:11:24 发布

阅读量241

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_34405401/article/details/119652182

版权

深度学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文本相似度计算复盘
参考文献
数据集及其评价指标介绍：https://blog.csdn.net/xixiaoyaoww/article/details/105460175

模型评价指标：https://blog.csdn.net/u010420283/article/details/104994800

ROC曲线和AUC面积理解：https://blog.csdn.net/program_developer/article/details/79946787

语义相似度计算的各种指标：https://www.cnblogs.com/shona/p/11971310.html

BERT做相似度计算：https://www.cnblogs.com/shona/p/12021304.html

苏神：https://spaces.ac.cn/archives/8321 https://spaces.ac.cn/archives/8348

流程：

文本语义相似度怎样计算：一般对计算语义向量（embedding）进行操作
同一文本在不同预训练模型（BERT、Roberta、RoFormer）下的embedding不同，那么有哪些模型
这些模型的embedding都有相同问题：各向异性
各项异性介绍：bert-flow
各向异性改进bert-whiting、SimBERT、SimCSE
相似性度量有哪些指标？模型评价标准？
有哪些公开的相似性任务（比如STS），不同方法在其上最终表现如何？
用余弦计算相似度需要满足哪些性质？

任务定义（监督可以用分类做，那么无监督怎么获得结果呢？？）—不同无监督方法的评估？？（在不同数据集上计算，比如STS-B用斯皮尔曼，那么BQ呢？任务怎样定义或获得结果时用排序的ROC？任务怎样定义时用相关系数？）
斯皮尔曼相关系数：https://blog.csdn.net/limiyudianzi/article/details/103614869
统计学三大相关系数：https://www.jianshu.com/p/7697eb89926a；https://www.cnblogs.com/sddai/p/10332573.html；
https://zhuanlan.zhihu.com/p/339077538
模型评估方法：
https://blog.csdn.net/u010420283/article/details/104994800

调研：
语义相似度任务？
语义相似度任务可以说是文本匹配最典型最经典的场景了，也就是判断两段文本是不是表达了同样的语义，即是否构成复述（paraphrase）关系。有的数据集是给出相似度等级，等级越高越相似（这种更合理一些），有的是直接给出0/1匹配标签。这一类场景一般建模成分类问题。

相似度做法？
比赛：https://www.sohu.com/a/287860625787107
原文：https://zhuanlan.zhihu.com/p/35093355
https://www.cnblogs.com/shona/p/11971310.html
深度学习：
深度学习在文本语义相似度方面可以简单概括为对向量的距离进行计算，向量是字/词通过语言模型学到的语义的数字化表示，两个句子的向量距离越近代表其语义越相似。向量之间的距离一般通过余弦相似度、欧式距离、曼哈顿距离、闵可夫斯基距离等来衡量，在相似度任务中一般采用余弦相似度（什么时候用余弦相似度bert-whitening：https://spaces.ac.cn/archives/8069）。
BERT家族有哪些？https://spaces.ac.cn/archives/8321
无监督语义相似度哪家强？（BERT家族的embedding有哪些问题，为什么有问题，怎样优化）
问题:直接用没有微调的bert词向量做余弦相似度表现不佳，因为Bert-Flow表明：语言模型学习到的词向量分布通常是各向异性，词嵌入常呈现锥形分布（Bert词向量的分布与词频有关，高频词近原点且分布稠密，低频词远原点且分布稀疏）；词向量的在词向量空间上分布不均匀。

BERT-flow：https://zhuanlan.zhihu.com/p/331807184

相似度模型评估？
https://blog.csdn.net/u010420283/article/details/104994800

代表性数据集：https://blog.csdn.net/xixiaoyaoww/article/details/105460175
现有的评测结果：https://spaces.ac.cn/archives/8348

遨游的菜鸡

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
文本相似度

文本相似度计算复盘参考文献数据集及其评价指标介绍：https://blog.csdn.net/xixiaoyaoww/article/details/105460175模型评价指标：https://blog.csdn.net/u010420283/article/details/104994800ROC曲线和AUC面积理解：https://blog.csdn.net/program_developer/article/details/79946787语义相似度计算的各种指标：https://www
复制链接

扫一扫