txtai教程系列 45部分 1

最新推荐文章于 2024-08-12 08:36:33 发布

Q shen

最新推荐文章于 2024-08-12 08:36:33 发布

阅读量256

点赞数

分类专栏： txtai 教程系列（45 部分系列）文章标签： rust 开发语言后端

本文链接：https://blog.csdn.net/qq_52010446/article/details/130504741

版权

本教程介绍了txtai平台，用于构建由语言模型支持的语义搜索和工作流。通过创建嵌入实例，展示了如何运行相似性查询、构建嵌入索引、更新和删除记录，以及如何利用内容和元数据进行查询。txtai支持多种功能，如SQL查询、对象存储，并与其他编程语言兼容。

摘要由CSDN通过智能技术生成

本教程系列将涵盖txtai的主要用例，txtai 是一个开源平台，用于由语言模型提供支持的语义搜索和工作流。系列中的每一部分都有对应的笔记本，可以完整再现每篇文章。
介绍txtai
txtai是一个开源平台，用于由语言模型提供支持的语义搜索和工作流。

传统的搜索系统使用关键字来查找数据。语义搜索具有对自然语言的理解，并识别具有相同含义的结果，不一定是相同的关键字。

txtai 构建嵌入数据库，它是向量索引和关系数据库的结合。这将启用与 SQL 的相似性搜索。嵌入数据库可以独立存在和/或充当大型语言模型 (LLM) 提示的强大知识源。

以下是主要功能的摘要：

🔎 与 SQL、对象存储、主题建模、图形分析、多个向量索引后端（Faiss、Annoy、Hnswlib）的相似性搜索以及对外部向量数据库的支持
📄 为文本、文档、音频、图像和视频创建嵌入
💡 由运行问答、标记、转录、翻译、总结、LLM 提示等的语言模型提供支持的管道
↪️️ 将管道连接在一起并聚合业务逻辑的工作流。txtai 流程可以是简单的微服务或多模型工作流。
⚙️ 使用 Python 或 YAML 构建。可用于JavaScript、Java、Rust和Go的 API 绑定。
☁️ 可与容器编排系统（如 Kubernetes）横向扩展的云原生架构
集成矢量搜索、会话搜索、自动摘要、转录、翻译等。

以下应用程序由 txtai 提供支持。

txtchat - 所有人的对话搜索和工作流程
paperai - 医学/科学论文的语义搜索和工作流程
codequestion - 开发人员的语义搜索
tldrstory - 标题和故事文本的语义搜索
txtai 是用 Python 3.7+、Hugging Face Transformers、Sentence Transformers和FastAPI构建的

本文概述了 txtai 以及如何运行相似性搜索。

安装依赖
安装txtai和所有依赖项。
pip install txtai
创建嵌入实例
Embeddings 实例是 txtai 的主要入口点。Embeddings 实例定义了用于标记化文本部分并将其转换为嵌入向量的方法。
from txtai.embeddings import Embeddings

Create embeddings model, backed by sentence-transformers & transformers

embeddings = Embeddings({“path”: “sentence-transformers/nli-mpnet-base-v2”})
运行相似性查询
嵌入实例依赖于底层转换器模型来构建文本嵌入。以下示例显示如何使用转换器嵌入实例对不同概念列表运行相似性搜索。
data = [“US tops 5 million confirmed virus cases”,
“Canada’s last fully intact ice shelf has suddenly collapsed, forming a Manhattan-sized iceberg”,
“Beijing mobilises invasion craft along coast as Taiwan tensions escalate”,
“The National Park Service warns against sacrificing slower friends in a bear attack”,
“Maine man wins $1M from $25 lottery ticket”,
“Make huge profits without work, earn up to $100,000 a day”]

print(“%-20s