embedding model 及rerank model 的个人理解
当你登录到huggingface,你在查询embedding model 时,一定会发现
图片中的红框,是一些基础的标签。
在查询rerank model 时,
一个显而易见的bert model。
嵌入模型是自然语言处理 (NLP) 和机器学习任务的关键组成部分。这些模型负责将文本数据转换为数值向量,通常在高维空间中,其中每个维度代表文本的特定特征或方面。嵌入模型的目标是捕获单词或文档之间的语义关系,使算法能够更有效地理解和处理文本数据。
嵌入模型有多种来源:
预训练的词嵌入:这些嵌入使用 Word2Vec、GloVe 或 FastText 等无监督学习技术在大型文本数据集上进行训练。预训练的词嵌入根据训练数据中单词的共现模式捕获单词之间的语义关系。
上下文嵌入模型:与为每个单词分配固定向量表示的传统单词嵌入不同,ELMo(来自语言模型的嵌入)和 BERT(来自 Transformers 的双向编码器表示)等上下文嵌入模型会生成上下文感知嵌入。这些模型考虑周围的单词及其在句子中的顺序,以生成捕获含义和上下文细微差别的嵌入。
自定义嵌入模型:组织或研究人员还可以在特定领域或专有数据集上训练其嵌入模型。这些自定义嵌入模型专为捕获特定领域的语义而定制,并且通常针对特定任务进行微调以提高性能。
迁移学习模型&#x