一文读懂Embeding技术

最新推荐文章于 2024-08-03 08:00:00 发布

AI小白龙*

最新推荐文章于 2024-08-03 08:00:00 发布

阅读量854

点赞数 26

文章标签： langchain 数据库语言模型人工智能 embedding 大模型 RAG

本文链接：https://blog.csdn.net/2301_81940605/article/details/139018595

版权

Embedding 技术是一种将高维数据映射到低维空间的方法，通常用于将离散的、非连续的数据转换为连续的向量表示，以便于计算机进行处理。这种技术广泛用于自然语言处理（NLP）、图像处理、推荐系统和其他机器学习应用中，以方便大语言模型处理输入数据。

Embedding 技术将原始数据从高维度空间映射到低维度空间，有助于减少数据的复杂性和计算资源的需求，并提高模型的训练和推理效率；Embedding 向量是连续的，因此可以在数学上进行操作，如向量加法、减法和点积等。这使得模型能够更好地理解数据之间的关系；

Embedding 技术通常会捕获数据的语义信息。在 NLP 中，这意味着相似的单词或短语在嵌入空间中会更接近，而不同的单词或短语会远离彼此。这有助于模型理解语言的含义和语义关系。

嵌入向量通常是可训练的，它们可以通过反向传播算法与模型一起训练。这意味着嵌入可以适应特定任务和数据集，从而提高模型的性能；Embedding 技术通常是上下文感知的，它们可以捕获数据点与其周围数据点的关系。在 NLP 中，单词的嵌入会考虑其周围的单词，以更好地表示语法和语义；Embedding 技术通常将高维数据降维到较低维度，但仍然保留了重要的信息。这有助于减少模型的复杂性，并提高模型的泛化能力。

Embedding 技术不仅在NLP领域有广泛应用，还在计算机视觉、推荐系统、社交网络分析等多个领域中有用途。在NLP中，Word Embedding是一种常见的技术，用于将单词映射到连续向量空间。在计算机视觉中，卷积神经网络（CNN）和循环神经网络（RNN）等模型也使用嵌入来处理图像和文本数据。

Embedding在大语言模型中的主要应用有：

作为 Embedding 层嵌入到大语言模型中，实现将高维稀疏特征到低维稠密特征的转换（如 Wide&Deep、DeepFM 等模型）；
作为预训练的 Embedding 特征向量，与其他特征向量拼接后，一同作为大语言模型输入进行训练（如 FNN）。

作为Embedding 层嵌入到大语言模型中

大语言模型无法直接理解书面文本，需要对模型的输入进行转换。为此，实施了句子嵌入，将文本转换为数字向量。

句子嵌入（来源：网络，作者：Damian Gil）

句子嵌入由专门的转换算法实现，可以选择转换算法数字向量的大小。通过句子嵌入对信息进行编码，并将其统一封装为包含所有特征的文本。为此可以创建一个脚本来完成嵌入，调用embedding_creation.py，该脚本收集训练数据集中的值，并创建一个由嵌入提供的新数据集。这是该脚本的代码：

代码语言：javascript

import pandas as pd # dataframe manipulation
import numpy as np # linear algebra
from sentence_transformers import SentenceTransformer
df = pd.read_csv("data/train.csv", sep = ";")
# -------------------- First Step --------------------
def compile_text(x):
text =f"""Age: {x['age']}, 
housing load:{x['housing']}, 
Job:{x['job']}, 
Marital:{x['marital']}, 
Education:{x['education']}, 
Default:{x['default']}, 
Balance:{x['balance']}, 
Personal loan:{x['loan']}, 
contact:{x['contact']}
"""
return text
sentences = df.apply(lambda x: compile_text(x), axis=1).tolist()
# -------------------- Second Step --------------------
model = SentenceTransformer(r"sentence-transformers/paraphrase-MiniLM-L6-v2")
output = model.encode(sentences=sentences,
show_progress_bar=True,
normalize_embeddings=True)
df_embedding = pd.DataFrame(output)
df_embedding

首先为每一行创建文本，将它存储在一个python列表中，供以后使用；创建Transformer,该模型专门训练在句子层执行嵌入，它在标记和单词层上的编码时只需要给出存储库地址，便可以调用模型。在本例中是“sentence-transformers/paraphrase-MiniLM-L6-v2”。创建的向量的长度为384。利用创建的向量创建一个具有相同列数的数据帧。

作为预训练的Embedding 特征向量

在自然语言处理（NLP）预训练任务中，Embedding 技术能够捕捉数据的语义信息，使得相似的数据在嵌入空间中更接近，有助于模型更好地理解数据之间的关系。典型的Transformer架构中，首先需要构建embedding层，即词嵌入，词嵌入操作将当前序列转化为向量。首先，获取embedding_table，然后到embedding_table里查找每个单词对应的词向量，并将最终结果返回给output，这样一来，输入的单词便成了词向量。但这个操作只是词嵌入的一部分，完整的词嵌入还应在词嵌入中添加其它额外的信息，即：embedding_post_processor。

Embedding层不光要考虑输入的单词序列，还需要考虑其它的额外信息和位置信息。Transformer构建出来的词嵌入向量中包含以下三种信息：即输入单词序列信息、其它的额外信息和位置信息。为了实现向量间的计算，必须保持包含这三种信息的词向量的维数一致。

获得位置编码的输出结果之后，在原词嵌入输出向量的基础上，加上额外编码获得的特征向量和位置编码向量，将三个向量求和，返回求和结果，便完成了大语言模型的输入词嵌入，得到了一个包含位置信息的词向量。

Embedding 技术具有许多优点，以下是 Embedding 技术的主要优点：

语义信息捕捉：Embedding 技术能够捕捉数据的语义信息，使得相似的数据在嵌入空间中更接近，有助于模型更好地理解数据之间的关系。
维度约减：Embedding 技术将高维数据映射到低维空间，减少了计算和内存需求，提高了模型的效率。
上下文感知：嵌入向量通常是上下文感知的，可以考虑数据点与其周围数据点的关系，这对于自然语言处理等任务非常有用。
可训练：嵌入向量通常是可训练的，可以与模型一起训练，从而适应特定任务和数据集。
泛化能力：适当训练的嵌入可以提高模型的泛化能力，从而使其能够处理新数据和未知情况。

Embedding 技术有以下主要缺点：

数据依赖性：Embedding 技术的性能高度依赖于训练数据的质量和多样性。如果训练数据不足或不具代表性，嵌入可能不准确。
维度选择：选择适当的嵌入维度可以是挑战性的，太低的维度可能丧失信息，太高的维度可能增加计算成本。
过拟合：嵌入可以过度拟合训练数据，特别是在小数据集上。这可能导致模型在未见过的数据上表现不佳。
计算复杂性：在训练嵌入时，可能需要大量的计算资源和时间，尤其是对于大规模数据集和高维度嵌入。
可解释性差：嵌入向量通常是抽象的，难以解释。这使得难以理解模型为什么做出特定的预测或推荐。

总的来说，Embedding 技术为许多深度学习任务提供了有力的工具，但在使用时需要权衡其优点和缺点，并根据具体情况进行调整和改进。

编辑：王菁

数据派研究部介绍

数据派研究部成立于2017年初，以兴趣为核心划分多个组别，各组既遵循研究部整体的知识分享和实践项目规划，又各具特色：

算法模型组： 积极组队参加kaggle等比赛，原创手把手教系列文章；

调研分析组： 通过专访等方式调研大数据的应用，探索数据产品之美；

系统平台组： 追踪大数据&人工智能系统平台技术前沿，对话专家；

自然语言处理组： 重于实践，积极参加比赛及策划各类文本分析项目；

制造业大数据组： 秉工业强国之梦，产学研政结合，挖掘数据价值；

数据可视化组：将信息与艺术融合，探索数据之美，学用可视化讲故事；

网络爬虫组： 爬取网络信息，配合其他各组开发创意项目。

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍