大模型的嵌入（Embedding）

最新推荐文章于 2025-05-21 16:18:49 发布

大囚长

最新推荐文章于 2025-05-21 16:18:49 发布

阅读量897

点赞数 5

分类专栏：大模型文章标签： embedding

本文链接：https://blog.csdn.net/Jailman/article/details/147222351

版权

165 篇文章

订阅专栏

大模型的嵌入（Embedding）是一种将非结构化数据（如文本、图像、音频等）转换为低维连续向量表示的核心技术。它通过数学模型将人类可理解的符号转化为机器可处理的数值形式，从而捕捉数据间的语义关联，支撑大模型对多模态信息的理解和生成。

在这里插入图片描述

数据向量化
嵌入技术通过神经网络模型（如Transformer）将高维离散数据（如单词、图片像素）映射为低维稠密向量。例如，单词“猫”和“狗”在向量空间中距离较近，而“苹果”因语义差异距离较远。这种向量化的核心在于捕捉数据的潜在关系，例如通过词频统计（Word2Vec）、上下文动态调整（BERT）等技术实现。
数学本质
嵌入向量本质上是多维矩阵，其维度表示数据特征的复杂度。例如，高维向量能捕捉更细微的语义差异，但也需要更高的计算资源。常见的向量计算方式包括余弦相似度、欧氏距离等，用于衡量数据相关性。
动态与静态嵌入
- 静态嵌入（如Word2Vec）：生成固定向量，无法处理一词多义。
- 动态嵌入（如BERT）：根据上下文调整向量，解决多义词问题（如“苹果”在不同句子中的不同含义）。

文本嵌入
- 词嵌入：Word2Vec（通过上下文预测词）、GloVe（基于全局词频统计）、FastText（支持子词分解）。
- 句子/文档嵌入：BERT、Sentence-BERT（捕捉长文本语义），适用于问答系统、文本分类。
多模态嵌入
- 图像嵌入：ResNet、CLIP（将图像映射为向量，支持跨模态检索）。
- 音频嵌入：Wav2Vec 2.0（将语音波形转为语义向量）。
- 图嵌入：Node2Vec（社交网络节点表示）。
专用模型
- BGE-M3：支持长文本（8192 tokens）和混合检索。
- Gemini Embedding：高精度多语言支持，适用搜索引擎优化。