本系列的第 2 部分和第 3 部分展示了如何在 txtai 中索引和搜索数据。第 2 部分索引并搜索了拥抱人脸数据集,第 3 部分索引并搜索了外部数据源。
txtai 是模块化设计,它的组件可以单独使用。txtai 具有适用于文本列表的相似度函数。此方法可以与任何外部搜索服务集成,例如 REST API、SQL 查询或任何其他返回文本搜索结果的服务。
在本文中,我们将采用与第 2 部分中使用的相同的 Hugging Face 数据集,在 Elasticsearch 中为其编制索引,并使用来自 txtai 的语义相似度函数对搜索结果进行排名。
安装依赖
安装txtai和。datasets_Elasticsearch
Install txtai, datasets and elasticsearch python client
pip install txtai datasets elasticsearch
Download and extract elasticsearch
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.10.1-linux-x86_64.tar.gz
tar -xzf elasticsearch-7.10.1-linux-x86_64.tar.gz
chown -R daemon:daemon elasticsearch-7.10.1
启动一个 Elasticsearch 实例。
import os
from subprocess import Popen, PIPE, STDOUT