SimCSE 复现问题与解决方法_simcse代码复现-CSDN博客

本文链接：https://blog.csdn.net/qq_52549788/article/details/134606799

本文用于复现SimCSE_Chinese的方法，主要参考已有的代码和论文，再根据自己的环境进行调试。

一、环境搭建

1.我的环境

大家环境尽量满足SimCSE的官方版本，在此基础上根据设备和需要调整版本，我的版本如下：

2.Pytorch相关问题

由于我之前做过一次关于Pytorch的项目，所以安装过一次，主要流程就是查看自己GPU版本，到pytorch与之匹配的版本（我是低一个版本），再去cuda官网下载对应版本的驱动，现在cuda好像可以集成了不需要下载tool，然后再把其他的补充文件下载好，可以参考一下网上的其他文章。

我的问题是在调用GPU阶段，Anaconda Powershell就可以，甚至新建一个项目中单独测试GPU和pycharm的终端中同样可以，唯独在此项目中就失败，我姑且使用CPU进行训练。

解决：

pytorch安装中解决命令行中gpu为true但是pycharm中gpu为false的问题_gpu false-CSDN博客

环境不匹配，不适用于我；

二、复现依据

文章参考：文本相似度算法 | SimCSE 实战 - 知乎 (zhihu.com)

该链接中包含了代码链接、数据集下载源和代码的部分讲解及结果分析。

文章最后也会附上我的代码链接

三、复现流程及问题

1.数据集格式不全的问题

上述文章链接中提供了STS-B、SNLI、MNLI、ATEC、BQ和PAWSX，缺少代码中所用到的LCQMC数据集。

格式问题讨论：由于我开始跟的是另一篇复现文章：。当时其使用的STS-B数据集是txt文件，但是找了很久，CNCS上的链接失效了，其他地方的只有.data格式。所以我发现本文使用的是.data 数据集，但是LCQMC数据集我只找到了tsv格式（如同一个魔咒一样）。但是经过实验后发现，存储文本内容的这些文件几乎是通用的，.data可以存储二进制和文本两种数据，二进制传输更快；tsv和csv是可以相互转化的，同时文本内容的tsv是可以通过记事本打开的，故而在这里也可以成功装载（load）。