来 Azure 学习 OpenAI 四 - 用 Embedding 赋能 GPT

Jambo Chen

已于 2023-07-17 17:26:37 修改

阅读量5.1k

点赞数 4

分类专栏：来 Azure 学习 OpenAI 文章标签： azure 学习 gpt

于 2023-05-22 06:30:00 首次发布

本文链接：https://blog.csdn.net/chenjambo/article/details/130776554

版权

本文介绍了如何在Azure上结合OpenAI的Embedding技术来提升GPT模型的能力。通过嵌入将文本转化为向量，计算向量相似度，用于搜索相关文档段落，以增强GPT对特定问题的回答。文中详细阐述了从预处理文档到生成回答的整个过程，展示了Embedding在文本理解和信息检索中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大家好，我是学生大使 Jambo。在我们前一篇文章中，我们介绍了 OpenAI 模型的调用。今天，我将为大家介绍 Embedding 的使用。

嵌入是什么

嵌入（Embedding ）是一种将高维数据映射到低维空间的方法。嵌入可以将高维数据可视化，也可以用于聚类、分类等任务。嵌入可以是线性的，也可以是非线性的。在深度学习中，我们通常使用非线性嵌入。非线性嵌入通常使用神经网络实现。

上面这句话对于没接触过 NLP（自然语言处理）的同学来说可能有点抽象。你可以理解为通过嵌入，可以将文字信息压缩、编码成向量（或者不准确的称之为数组），而这个向量包含了这段文字的语义。我们可以将这个技术用于搜索引擎、推荐系统等等。

调用 Embedding 模型

与前篇一样，我们需要先部署模型。这里我们使用 text-embedding-ada-002。

然后安装 openai 包。用以下命令安装，会将 numpy、pandas 等库一并安装。

pip install openai[datalib]

接下来导入 openai，并做一些初始化工作。

import openai

openai.api_key = "REPLACE_WITH_YOUR_API_KEY_HERE"    # Azure 的密钥
openai.api_base = "REPLACE_WITH_YOUR_ENDPOINT_HERE"  # Azure 的终结点
openai.api_type = "azure" 
openai.api_version = "2023-03-15-preview" # API 版本，未来可能会变
model = "text-embedding-ada-002"  # 模型的部署名

embedding = openai.Embedding.create(
    input="苹果", engine="text-embedding-ada-002"
)
print(embedding1)

{
  "data": [
    {
      "embedding": [
        0.011903401464223862,
        -0.023080304265022278,
        -0.0015027695335447788,
        ...
    ],
      "index": 0,
      "object": "embedding"
    }
  ],
  "model": "ada",
  "object": "list",
  "usage": {
    "prompt_tokens": 3,
    "total_tokens": 3
  }
}

其中 embedding 就是 “苹果” 所对应的向量。