Meilisearch 和 Ollama 实现文本向量搜索

我爱学AI

于 2024-10-09 15:23:50 发布

阅读量583

点赞数 13

文章标签：人工智能 LLM AI 大模型大模型学习路线 ollama 文本向量化

本文链接：https://blog.csdn.net/python1234_/article/details/142787952

版权

Meilisearch 是一个开源、快速、简洁的全文搜索引擎，专为构建高性能、实时的搜索功能而设计。其主要特点如下：

极速搜索：Meilisearch 使用反向索引来加速搜索查询，因此能够在海量数据中提供毫秒级的响应时间，尤其适合实时搜索需求。
智能搜索：Meilisearch 支持模糊搜索、拼写纠错、同义词匹配、结果排序等功能，使得用户在搜索时无需提供完全准确的关键词。
即时更新：它支持对数据的实时更新，任何数据变动都会立即反映在搜索结果中，适合频繁变动的数据集。
轻量级：Meilisearch 采用 Rust 编写，内存占用较低，部署和使用都非常简单。通过一个简单的 RESTful API 即可操作，无需复杂的配置和维护。
多语言支持：Meilisearch 支持多种语言的文本处理和分析，包括词形还原、停用词处理等。对于不同语言，它可以自适应提供准确的搜索结果。
搜索体验优化：它不仅支持传统的精确匹配，还能根据用户的搜索意图返回最相关的结果，提升用户体验。
开源和可扩展性：由于是开源项目，开发者可以根据需要对其进行自定义扩展，并且有一个活跃的社区持续维护和改进。

Meilisearch 非常适合用于电商、博客、文档管理等需要提供快速搜索体验的应用场景。

1. Meilisearch 设置

1.1 部署 Meilisearch

首先，我们使用 Docker Compose 来启动 Meilisearch。创建一个 docker-compose.yml 文件，内容如下：

version: '3'  
services:  
  meilisearch:  
    container_name: meilisearch  
    image: getmeili/meilisearch:v1.8  
    environment:  
      - http_proxy  
      - https_proxy  
      - MEILI_MASTER_KEY=${MEILI_MASTER_KEY:-masterKey}  
      - MEILI_NO_ANALYTICS=${MEILI_NO_ANALYTICS:-true}  
      - MEILI_ENV=${MEILI_ENV:-development}  
      - MEILI_LOG_LEVEL  
      - MEILI_DB_PATH=${MEILI_DB_PATH:-/meili_data/data.ms}  
    ports:  
      - ${MEILI_PORT:-7700}:7700  
    networks:  
      - meilisearch  
    volumes:  
      - ./meili_data:/meili_data  
    restart: unless-stopped  
networks:  
  meilisearch:  
    driver: bridge

1.2 配置环境变量

创建一个 .env 文件，用来存储 Meilisearch 的一些配置：

MEILI_MASTER_KEY=vhcdWXs31gt3cB76  
MEILI_NO_ANALYTICS=true  
MEILI_ENV=development  
MEILI_LOG_LEVEL=info  
MEILI_DB_PATH=./data.ms  
MEILI_PORT=7700

参数	值	说明
`MEILI_MASTER_KEY`
Meilisearch 的主密钥，用于身份验证。
`MEILI_NO_ANALYTICS`
禁用分析功能。
`MEILI_ENV`
Meilisearch 环境设置，`development` 表示开发环境。
`MEILI_LOG_LEVEL`
设置日志级别为 `info`，用于输出一般信息。
`MEILI_DB_PATH`
数据库路径，指定 Meilisearch 存储数据的位置。
`MEILI_PORT`
Meilisearch 运行时的端口号。

1.3 启动 Meilisearch

有了 docker-compose.yml 和 .env 文件后，只需要运行以下命令即可启动 Meilisearch：

docker-compose up -d

2. Ollama 设置

Ollama 是一个支持本地部署的大语言模型平台，可以帮助开发者通过 API 访问 AI 模型，并进行高效的自然语言处理任务。它通常用于构建自定义的 AI 应用和高级搜索功能，比如与 Meilisearch 集成进行向量搜索。Ollama 支持多种语言模型，并提供灵活的配置选项，允许开发者在本地或私有云环境中运行这些模型，避免了将数据发送到外部服务器的风险。

与 Meilisearch 集成时，Ollama 可以通过处理用户的查询，将其转换为向量，并与 Meilisearch 中的文档向量进行对比，从而实现高效的语义搜索。你可以通过 Ollama 的 API 定制各种自然语言任务，比如文本生成、摘要、分类等。

2.1 安装 Ollama

按照 Ollama 官方文档的指示安装 Ollama。安装完成后，我们需要配置服务。

2.2 配置 Ollama 服务

创建一个新的 systemd 服务文件，路径为 /etc/systemd/system/ollama.service：

[Unit]  
Description=Ollama Service  
After=network.target  
  
[Service]  
ExecStart=/usr/local/bin/ollama serve  
Restart=always  
User=root  
  
[Install]  
WantedBy=multi-user.target

2.3 允许外部访问

如果你需要从外部网络访问 Ollama，需要修改服务配置，允许绑定到所有网络接口。创建 /etc/systemd/system/ollama.service.d/override.conf 文件，内容如下：

[Service]  
Environment="OLLAMA_HOST=0.0.0.0"

接着，运行以下命令来重新加载服务并启动 Ollama：

systemctl daemon-reload  
systemctl restart ollama

3. 配置 Meilisearch 向量搜索

3.1 激活向量搜索功能

首先，确保你激活了 Meilisearch 的向量搜索功能。你可以通过以下命令来打开这个功能：

curl -X PATCH 'https://meili.x.net/experimental-features/' \  
  -H 'Content-Type: application/json' \  
  -H 'Authorization: Bearer vhcdWXsxi11Np1gt3cB76' \  
  --data-binary '{  
    "vectorStore": true  
  }'

3.2 配置 Meilisearch 使用 Ollama

接下来，我们将 Meilisearch 和 Ollama 结合使用。通过以下命令将 Ollama 作为 Meilisearch 的嵌入模型：

curl -X PATCH 'https://meili.x.net/indexes/posts/settings' \  
     -H 'Content-Type: application/json' \  
     -H 'Authorization: Bearer vhcdWXs3idet3cB76' \  
     --data-binary '{  
       "embedders": {  
         "default": {  
           "source": "ollama",  
           "url": "http://149.x:11434/api/embeddings",  
           "model": "nomic-embed-text",  
           "documentTemplate": "The document titled {{doc.title}} contains: {{doc.summary|truncatewords: 20}}"  
         }  
       }  
     }'

Nomic-embed-text是一个新发布的开源文本嵌入模型，具有8192的上下文长度，能够有效处理短文本和长文本任务。该模型在性能上超越了OpenAI的text-embedding-ada-002和text-embedding-3-small，且参数量为137M，属于较小的模型。它的训练数据集包含2.35亿个文本对，支持研究人员复现和审计模型。

4. 执行向量搜索

现在你已经完成了配置，可以开始执行向量搜索查询了。下面是一个简单的查询例子：

curl -X POST -H 'content-type: application/json' \  
  -H 'Authorization: Bearer vhcdWXs3eycNmxi11Np1gt3cB76' \  
  'https://meili.x.net/indexes/posts/search' \  
  --data-binary '{  
    "q": "Cloudflare tunnel Mac 本地设置隧道指南",  
    "hybrid": {  
      "semanticRatio": 0.1,  
      "embedder": "default"  
    }  
  }'

参数	值	说明
`source`
指定嵌入器的来源，使用 Ollama 平台。
`url`
Ollama 提供的 API URL，用于生成嵌入向量。
`model`
使用的嵌入模型，`nomic-embed-text` 用于将文本转换为向量。
`documentTemplate`
文档模板，定义嵌入器如何从文档提取信息进行处理。`{{doc.title}}` 代表文档的标题，`{{doc.summary	truncatewords: 20}}` 代表文档摘要并截取前 20 个词。

5. 监控和维护

为了确保系统运行平稳，你可以查看 Ollama 的运行日志：

journalctl -u ollama.service -f

还可以通过以下命令检查 Meilisearch 的设置是否正确：

curl -X GET 'https://meili.x.net/indexes/posts/settings' \  
   -H 'Authorization: Bearer vhcdWXs31Np1gt3cB76' \  
   -H 'Content-Type: application/json'