自然语言处理
文章平均质量分 94
真·skysys
萌即正义 ^ω^ ヾ(o◕∀◕)ノヾ ヽ(≧□≦)ノ ヾ(・ω・`。)
展开
-
文献阅读笔记 # SimCSE: Simple Contrastive Learning of Sentence Embeddings
SimCSE:Sentence Embedding + 对比学习原创 2023-07-09 14:24:19 · 680 阅读 · 0 评论 -
文献阅读笔记 # Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation
本文提出了一种简单有效的方法来扩展现有的 sentence embedding 模型到新的语言。这使得从以前的单语言(monolingual)模型创建多语言(multilingual)版本成为可能。翻译后的句子应该被映射到与原句子在向量空间中相同的位置。我们使用原始(单语言)模型为源语言生成句嵌入,然后训练一个新的语句翻译系统来模仿(minic)原始模型。原创 2023-02-03 02:32:21 · 481 阅读 · 0 评论 -
文献阅读笔记 # Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
BERT(2018) 和 RoBERTa(2019) 在 sentence-pair regression 类任务(如,semantic textual similarity, STS, 语义文本相似度任务)中取得了 SOTA,但计算效率低下,因为 BERT 的构造使其不适合 semantic similarity search 也不适合无监督任务,如聚类。10000 sentences 找到最相似的 pair 需要约5千万次BERT推理(单张V100 ~65hours)原创 2023-01-28 16:12:11 · 1021 阅读 · 0 评论