01 Embedding 介绍
在自然语言处理(NLP)中,Embedding 是一种将文本数据从高维稀疏向量空间转换到低维密集向量空间的技术。这种转换使得模型能够学习到词汇之间的语义和语法关系,并以连续的数值向量形式表示单词、句子或文档,从而便于机器学习算法处理。
从离散到连续的转换
在处理文本数据时,我们通常面对的是离散的符号(如单词)。Embedding 允许我们将这些离散的符号转换成连续的向量空间中的点,使得__相似意义的词在向量空间中距离较近,而不同意义的词距离较远。这种转换对于大多数机器学习算法至关重要,因为它们通常要求输入是数值型的。
词嵌入(Word Embedding)
词嵌入是将每个单词映射到一个固定长度的实数向量上,这个向量能够捕捉单词的语义信息。例如,"猫"和"狗"这两个词在嵌入空间中的向量会比较接近,因为它们在语义上有相似性。
一些著名的预训练词嵌入模型包括Word2Vec、GloVe和FastText。这些模型通过分析大量文本数据学习得到单词的嵌入向量。
上下文敏感的嵌入(Contextual Embeddings)
随着Transformer架构的引入,如BERT、RoBERTa、ELECTRA等模型,词嵌入进入了上下文敏感的阶段。这些模型为文本中的每个单词生成嵌入时会考虑其上下文环境,因此,同一个单词在不同语境下的嵌入向量可以不同,这大大提高了模型理解复杂语言结构的能力。
应用场景
Embedding广泛应用于各种NLP任务,包括但不限于:文本分类、语义相似度计算、机器翻译、对话系统、情感分析。
02 Embedding 工作原理
在深度学习框架中(如Keras、TensorFlow),Embedding层是一个常用的组件:
- 输入:接受一个整数序列,每个整数代表词汇表中的一个单词索引。
- 输出:为输入序列中的每个单词生成一个固定维度的向量。
- 参数:主要参数包括input_dim(词汇表大小)、output_dim(嵌入向量的维度)以及初始化方式等。
03 LangChain 中的 Embedding
LangChain 的 Embeddings 类提供了一个标准化的接口,用于与不同的文本嵌入模型提供商(如 OpenAI 和 Cohere)进行交互。
文本嵌入模型通过将文本转换为向量形式,使得可以在向量空间中进行语义搜索和相似性比较。
Embeddings 类包含两种方法:
- embed_documents 用于嵌入多个文本,适用于被搜索的文档集合
- embed_query 用于嵌入单个查询文本,适用于执行搜索的查询。
Embedding 种类(数量)
class Embeddings
class FakeEmbeddings
class DeterministicFakeEmbedding
class OpenAIEmbeddings
class AzureOpenAIEmbeddings
class HuggingFaceEmbeddings
class HuggingFaceInstructEmbeddings
class HuggingFaceBgeEmbeddings
class HuggingFaceInferenceAPIEmbeddings
class AlephAlphaAsymmetricSemanticEmbedding
class AlephAlphaSymmetricSemanticEmbedding
class OpenAIEmbeddings
class AnyscaleEmbeddings
class AzureOpenAIEmbeddings
class AwaEmbeddings
class BaichuanTextEmbeddings
class BedrockEmbeddings
class BookendEmbeddings
class ClarifaiEmbeddings
class CohereEmbeddings
class DashScopeEmbeddings
class MlflowEmbeddings
class MlflowCohereEmbeddings
class DatabricksEmbeddings
class DeepInfraEmbeddings
class FakeEmbeddings
class DeterministicFakeEmbedding
class EdenAiEmbeddings
class ElasticsearchEmbeddings
class EmbaasEmbeddings
class ErnieEmbeddings
class FastEmbedEmbeddings
class GPT4AllEmbeddings
class GooglePalmEmbeddings
class GradientEmbeddings
class GigaChatEmbeddings
class HuggingFaceHubEmbeddings
class InfinityEmbeddings
class InfinityEmbeddingsLocal
class JavelinAIGatewayEmbeddings
class JinaEmbeddings
class JohnSnowLabsEmbeddings
class LLMRailsEmbeddings
class LaserEmbeddings
class LlamaCppEmbeddings
class LlamafileEmbeddings
class LocalAIEmbeddings
class MiniMaxEmbeddings
class MlflowAIGatewayEmbeddings
class ModelScopeEmbeddings
class MosaicMLInstructorEmbeddings
class NLPCloudEmbeddings
class NeMoEmbeddings
class OCIGenAIEmbeddings
class OctoAIEmbeddings
class OllamaEmbeddings
class OpenVINOEmbeddings
class OpenVINOBgeEmbeddings
class QianfanEmbeddingsEndpoint
class QuantizedBgeEmbeddings
class QuantizedBiEncoderEmbeddings
class OracleEmbeddings
class SagemakerEndpointEmbeddings
class SambaStudioEmbeddings
class SelfHostedEmbeddings
class SelfHostedHuggingFaceEmbeddings
class SelfHostedHuggingFaceInstructEmbeddings
class SolarEmbeddings
class SpacyEmbeddings
class SparkLLMTextEmbeddings
class TensorflowHubEmbeddings
class VertexAIEmbeddings
class VolcanoEmbeddings
class VoyageEmbeddings
class XinferenceEmbeddings
class TitanTakeoffEmbed
class PremAIEmbeddings
class YandexGPTEmbeddings
class CacheBackedEmbeddings
通过打印,我们可以看到一些熟悉的面孔:OpenAIEmbeddings、HuggingFaceEmbeddings、BaichuanTextEmbeddings、CohereEmbeddings、ElasticsearchEmbeddings、GooglePalmEmbeddings、LlamaCppEmbeddings、QianfanEmbeddingsEndpoint、TensorflowHubEmbeddings等等。项目中可以根据需要,选择其中一种使用。
基础使用
这里举两个例子用于说明,一个OpenAIEmbeddings 一个 HuggingFaceEmbeddings。
OpenAIEmbeddings 使用如下:
from langchain_openai import OpenAIEmbeddings
embeddings_model = OpenAIEmbeddings(api_key="...")
embeddings = embeddings_model.embed_documents(
[
"Hi there!",
"Oh, hello!",
"What's your name?",
"My friends call me World",
"Hello World!"
]
)
len(embeddings), len(embeddings[0])
# 5组向量,每组向量的纬度是1536
"""
(5, 1536)
"""
HuggingFaceEmbeddings 使用如下:
from transformers.utils import is_torch_cuda_available, is_torch_mps_available
from langchain_community.embeddings import HuggingFaceEmbeddings
# 词嵌入模型
EMBEDDING_DEVICE = "cuda" if is_torch_cuda_available() else "mps" if is_torch_mps_available() else "cpu"
embeddings_model = HuggingFaceEmbeddings(model_name='D:\models\m3e-base', model_kwargs={'device': EMBEDDING_DEVICE})
embeddings = embeddings_model.embed_documents(
[
"Hi there!",
"Oh, hello!",
"What's your name?",
"My friends call me World",
"Hello World!"
]
)
len(embeddings), len(embeddings[0])
# 5组向量,每组向量的纬度是768
"""
(5, 768)
"""
给 Embedding 加上缓存
CacheBackedEmbeddings 是一种用于缓存文本嵌入的工具,它可以_避免重复计算嵌入,提高效率。
初始化 CacheBackedEmbeddings 时,可以使用 from_bytes_store 方法,该方法需要指定一个嵌入器 underlying_embedder,一个用于缓存文档嵌入的 ByteStore,以及可选的 batch_size 和 namespace 参数。namespace 参数用于避免不同嵌入模型产生的缓存冲突。
LocalFileStore 提供了持久化缓存的能力,而 InMemoryByteStore 则提供了一个简单的内存中缓存解决方案。
示例代码如下:
from langchain.embeddings import CacheBackedEmbeddings
from langchain.storage import LocalFileStore
# 词嵌入模型
EMBEDDING_DEVICE = "cuda" if is_torch_cuda_available() else "mps" if is_torch_mps_available() else "cpu"
underlying_embeddings = HuggingFaceEmbeddings(model_name='D:\models\m3e-base', model_kwargs={'device': EMBEDDING_DEVICE})
store = LocalFileStore("./cache/")
cached_embedder = CacheBackedEmbeddings.from_bytes_store(
underlying_embeddings, store, namespace='m3e-base'
)
# Embedding is computed and cached
# 第一次执行耗时较长
embeddings = cached_embedder.embed_documents(["hello", "goodbye"])
# 第二次执行很快,这就是缓存的作用
embeddings = cached_embedder.embed_documents(["hello", "goodbye"])
# 打印缓存文件的key
list(store.yield_keys())
"""
['m3e-base6ba52e44-59c9-5cc9-a084-284061b13c80',
'm3e-basee885db5b-c0bd-5fbc-88b1-4d1da6020aa5']
"""
缓存文件如下图所示,文件内容是向量数组。
Embedding 缓存还可以配合向量存储(Vector stores)使用,这部分我们下一篇文章会讲解,这里先卖个关子~ 😁
04 总结
为什么需要有词嵌入这一步?本质还是因为 LLM 接受的数据质量越高,输出就越精准。词嵌入后会根据相似度算法去找 Top n 相关的输入数据给到 LLM,从而确保 LLM 的输出符合预期。
以上就是本次 Embedding Models 的全部内容,希望你们会喜欢。
如何系统的去学习大模型LLM ?
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料
包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
阶段1:AI大模型时代的基础理解
- 目标:了解AI大模型的基本概念、发展历程和核心原理。
- 内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
- 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
- 内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.2.1 什么是Prompt
- L2.2.2 Prompt框架应用现状
- L2.2.3 基于GPTAS的Prompt框架
- L2.2.4 Prompt框架与Thought
- L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
- L2.3.1 流水线工程的概念
- L2.3.2 流水线工程的优点
- L2.3.3 流水线工程的应用
- L2.4 总结与展望
阶段3:AI大模型应用架构实践
- 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
- 内容:
- L3.1 Agent模型框架
- L3.1.1 Agent模型框架的设计理念
- L3.1.2 Agent模型框架的核心组件
- L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
- L3.2.1 MetaGPT的基本概念
- L3.2.2 MetaGPT的工作原理
- L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
- L3.3.1 ChatGLM的特点
- L3.3.2 ChatGLM的开发环境
- L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
- L3.4.1 LLAMA的特点
- L3.4.2 LLAMA的开发环境
- L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
- 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
- 内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
学习计划:
- 阶段1:1-2个月,建立AI大模型的基础知识体系。
- 阶段2:2-3个月,专注于API应用开发能力的提升。
- 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
- 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓