文本相似度计算复盘
参考文献
数据集及其评价指标介绍:https://blog.csdn.net/xixiaoyaoww/article/details/105460175
模型评价指标:https://blog.csdn.net/u010420283/article/details/104994800
ROC曲线和AUC面积理解:https://blog.csdn.net/program_developer/article/details/79946787
语义相似度计算的各种指标:https://www.cnblogs.com/shona/p/11971310.html
BERT做相似度计算:https://www.cnblogs.com/shona/p/12021304.html
苏神:https://spaces.ac.cn/archives/8321 https://spaces.ac.cn/archives/8348
流程:
- 文本语义相似度怎样计算:一般对计算语义向量(embedding)进行操作
- 同一文本在不同预训练模型(BERT、Roberta、RoFormer)下的embedding不同,那么有哪些模型
- 这些模型的embedding都有相同问题:各向异性
- 各项异性介绍:bert-flow
- 各向异性改进bert-whiting、SimBERT、SimCSE
- 相似性度量有哪些指标?模型评价标准?
- 有哪些公开的相似性任务(比如STS),不同方法在其上最终表现如何?
- 用余弦计算相似度需要满足哪些性质?
任务定义(监督可以用分类做,那么无监督怎么获得结果呢??)—不同无监督方法的评估??(在不同数据集上计算,比如STS-B用斯皮尔曼,那么BQ呢?任务怎样定义或获得结果时用排序的ROC?任务怎样定义时用相关系数?)
斯皮尔曼相关系数:https://blog.csdn.net/limiyudianzi/article/details/103614869
统计学三大相关系数:https://www.jianshu.com/p/7697eb89926a;https://www.cnblogs.com/sddai/p/10332573.html;
https://zhuanlan.zhihu.com/p/339077538
模型评估方法:
https://blog.csdn.net/u010420283/article/details/104994800
调研:
语义相似度任务?
语义相似度任务可以说是文本匹配最典型最经典的场景了,也就是判断两段文本是不是表达了同样的语义,即是否构成复述(paraphrase)关系。有的数据集是给出相似度等级,等级越高越相似(这种更合理一些),有的是直接给出0/1匹配标签。这一类场景一般建模成分类问题。
相似度做法?
比赛:https://www.sohu.com/a/287860625787107
原文:https://zhuanlan.zhihu.com/p/35093355
https://www.cnblogs.com/shona/p/11971310.html
深度学习:
深度学习在文本语义相似度方面可以简单概括为对向量的距离进行计算,向量是字/词通过语言模型学到的语义的数字化表示,两个句子的向量距离越近代表其语义越相似。向量之间的距离一般通过余弦相似度、欧式距离、曼哈顿距离、闵可夫斯基距离等来衡量,在相似度任务中一般采用余弦相似度(什么时候用余弦相似度bert-whitening:https://spaces.ac.cn/archives/8069)。
BERT家族有哪些?https://spaces.ac.cn/archives/8321
无监督语义相似度哪家强?(BERT家族的embedding有哪些问题,为什么有问题,怎样优化)
问题:直接用没有微调的bert词向量做余弦相似度表现不佳,因为Bert-Flow表明:语言模型学习到的词向量分布通常是各向异性,词嵌入常呈现锥形分布(Bert词向量的分布与词频有关,高频词近原点且分布稠密,低频词远原点且分布稀疏);词向量的在词向量空间上分布不均匀。
BERT-flow:https://zhuanlan.zhihu.com/p/331807184
相似度模型评估?
https://blog.csdn.net/u010420283/article/details/104994800
代表性数据集:https://blog.csdn.net/xixiaoyaoww/article/details/105460175
现有的评测结果:https://spaces.ac.cn/archives/8348