在这个文件中,
data 是process之后的数据集,用在model的train过程中。
datasets是放置data的zip的文件夹
output是model train和evaluation之后得到的文件
scripts是model train或者test可能会用到的sh文件
sentence_transformers存放的是python tool中的sentence_transformers的具体模块
transformers存放的是python tool中的transformer的具体模块
analysis_rep_space: 正在git中向作者请教
correlation_visualization:计算得到的相似度分值的相关性可视化展示。
data_utils:数据加载的过程,在中文数据加载中使用的是:load_chinese_tsv_data
eval:model 的evaluation过程。
eval_pretrain:这里我感觉也是model的pretrain的一个过程,在model load之后,使用的evaluation函数计算相似度的计算
main:model 的train和test过程
if args.no_pair:
assert args.cl_loss_only, "no pair texts only used when contrastive loss only"
train_samples.append(InputExample(texts=[row['sentence1']]))
train_samples.append(InputExample(texts=[row['sentence2']]))
else:
train_samples.append(InputExample(texts=[row['sentence1'], row['sentence2']], label=label_id))