文本表示
文章平均质量分 73
分享文本表示相关论文。
choose_c
总有人要赢,那为什么不是我。
展开
-
预训练模型语义相似性计算(十一) - M3E和BGE
3.特定任务微调,在C-MTP有监督语料下训练,有监督语料量少但是质量高,为了缓解语料任务之间的矛盾,微调使用指令微调。对于每个小批,我们利用模型编码文本,收集输出的向量同时丢弃所有前向传播中的中间状态,最后汇总向量计算损失。2.通用微调,在C-MTP无监督语料下进行对比学习,没有特意挖掘负样本,而是以来批次内负样本,并通过增大批次从而增加嵌入的判别性。1.C-MTP,一个大型的文本嵌入训练集,包括了大量的非监督语料库和高质量标注的有监督语料库。3.最后将蒸馏损失和混合检索损失作为最后的损失。原创 2024-05-28 22:17:24 · 1457 阅读 · 0 评论 -
检索模型预训练方法:RetroMAE
1.一种新的MAE工作流,编码器和解器输入进行了不同的掩码。编码器编码的句子向量和解码器的掩码输入通过语言模型进行重构问句。2.非对称的模型结构,编码器拥有像BERT一样全尺寸的transformer,解码器只有一层的transformer。3.非对称的掩码比例,编码器:15%-30%,解码器:50%-70%。retroMAE这样设计的原因:1.auto-encoding对于编码质量的要求更高,传统的自回归更关注前缀,传统的MLM只掩盖一小部(15%)的输入。原创 2024-05-28 22:16:34 · 710 阅读 · 0 评论 -
预训练模型语义相似性计算(二)--BERT-flow
SBERT的缺点和留下的疑问: 1.需要监督语料。 微调时间不久,但是对语料质量还是有要求的。 2.为什么bert句向量cosine不能用做相似性计算? i.没有学到语义相似性信息? ii.cosine无法刻画相似度?BERT-flow: 训练到的句向量应该是包含了语义相似性信息。因为训练目标和相似性计算目标是一致的。 所以原因应该是 ii.cosine不能很好刻画相似性。 ...原创 2021-02-22 22:18:46 · 1287 阅读 · 0 评论 -
SBERT实验详情
1.模型介绍a.预训练模型: Electra-small 在180G中文数据下pre-trainning模型; 使用Transformers加载"hfl/chinese-electra-180g-small-generator"语言模型。b.模型结构:A、B两个句子,分别过同一个Electra-small模型。 分别得到句向量表示,Seq_A_vector、Seq_B_vector。 两个向量进行拼接,[Seq_A_vector, Seq_B_vector],拼接成一个向...原创 2021-02-22 21:18:57 · 2579 阅读 · 1 评论 -
预训练模型语义相似性计算(一)--SBERT
将预训练BERT迁移到文本语义相似性思路: 1.交互编码(cross-encoder)。文本拼接后进行微调。 缺点非常耗时; 2.向量空间模型 进行无监督训练,使用BERT模型的输出的cls向量,最后一层或几层的hidden state(avg),一般后者效果好。 效果不如glove 3.SBERT 使用孪生网络,加快推理。SBERT: 时间消耗:每个句子生成句向量+cosine的计算; 预训练模型的选择:BERT...原创 2021-02-22 21:20:39 · 2755 阅读 · 3 评论 -
预训练模型语义相似性计算(三)--simbert
最近有在做一个相似句的任务,使用的SetenceBERT模型,对模型进行了一些参数的调优和BERT-flow方向的实验测试。今天介绍的simbert是结合了检索和文本生成的模型,这个是在看文本增强时看到的方法,但是又是可以进行相似句计算的,所以想记录一下。 使用BERT模型进行文本增强的思路有两种:1.对输入进行MASK后,输入BERT后进行补全;2.生成方式。 MASK补全的方法在中文中有一个问题就是BERT是字符级别的,所以MASK的单位也是字符单位的...原创 2021-02-28 14:50:19 · 3536 阅读 · 0 评论 -
预训练模型语义相似性计算(四)--SimCSE
接着之前的句向量表示模型进行相似句计算的方法,这篇接着介绍一种新的方法-SimCSE。文章来自普林斯顿陈丹琦,引入了对比学习的原创 2021-06-15 23:03:26 · 2485 阅读 · 0 评论 -
预训练模型语义相似性计算(六)--cross-encoder
前面讲的各个语义相似性计算的模型,基本都是双塔的结构。双塔结构主要优点是相似性计算快速,这里指的快速不是模型单个数据的推理速度,而是在大量问句场景下的计算,比如相似问句的召回场景。因为双塔模型得到的其实是单个问句的表示,相似性的计算只是在最后做了简单的计算,最耗时的问句表示操作可以离线完成。而cross-encoder是在模型输入时进行了拼接输入,这样两个问句进行更深层的交互,相似句任务直接在模型中完成,而不单单是问句的语义表示模型。所以cross-encoder的相似计算效果也要明显优于双...原创 2022-04-22 16:43:03 · 4807 阅读 · 0 评论 -
预训练模型语义相似性计算(五)--poly-encoder
bi-encoder(SBERT)和cross-encoder两种模型架构都有各自的优缺点,FAIR在ICLR2020上提出的这个poly-encoder的架构集成了两者的优点,并且避免了缺点。poly-encoder的架构图如下: poly-encoder的架构其实很简单,对contexr-query向量进行再一次编码生成m个向量表示,再与candidate-query进行attention计算得到最后的相似表示。bi-encoder在表示的缺点是两个query在经...原创 2021-06-27 12:27:22 · 918 阅读 · 0 评论 -
预训练模型语义相似性计算(八)--AWS文本表示三连击
PariSupConTrans-EncoderVaSCL原创 2022-04-21 21:17:11 · 265 阅读 · 0 评论 -
预训练模型语义相似性计算(七) -套娃向量表示和动态层的组合拳
尽管 MRL 的效率有所提高,但在获得嵌入之前仍然需要遍历所有 Transformer 层,这仍然是时间和内存消耗的主要因素。这提示考虑了固定数量的 Transformer 层是否会影响表示质量,以及是否使用中间层进行句子表示是可行的。它支持嵌入大小和Transformer层的弹性设置,提供了比MRL更大的灵活性和效率。有了这些优势,MRL 实现了基于准确性和计算约束的自适应部署。为了平衡计算成本和表示效果,使用了俄罗斯套娃向量表示(MRL)技术,传入维度参数后可以指定输出向量的维度大小。原创 2024-04-07 11:21:46 · 296 阅读 · 0 评论 -
预训练模型语义相似性计算(十)--ACL2023:成分对比学习生成句子嵌入表示
很多基于对比学习的方法用在无监督语料中,通过最大化对齐同一句子的最小扰动,并且鼓励向量在广泛文本语料中的均匀分布。本文方法提出最大化文本与其短语成分的组合之间的对齐。对比学习框架在计算机视觉中的成功很大程度上是由于用于创建正对时增强的多样性,这使得原始示例的身份保持不变,同时减少输入空间中的成对互信息。将相同的训练目标应用于句子的嵌入表示时,通过离散增强方法构造正向对没有效果。之前的研究通过消融实验可知,这样的增强对会损害相似性任务的下游性能。原创 2023-08-12 10:51:54 · 318 阅读 · 0 评论 -
预训练模型语义相似性计算(九)--向量表示相关论文
对话文本中的向量表示以及对比学习相关的向量表示方法。原创 2022-04-28 20:29:12 · 461 阅读 · 0 评论