txtai教程系列 45部分 1

本教程系列将涵盖txtai的主要用例,txtai 是一个开源平台,用于由语言模型提供支持的语义搜索和工作流。系列中的每一部分都有对应的笔记本,可以完整再现每篇文章。
介绍txtai
txtai是一个开源平台,用于由语言模型提供支持的语义搜索和工作流。

传统的搜索系统使用关键字来查找数据。语义搜索具有对自然语言的理解,并识别具有相同含义的结果,不一定是相同的关键字。

txtai 构建嵌入数据库,它是向量索引和关系数据库的结合。这将启用与 SQL 的相似性搜索。嵌入数据库可以独立存在和/或充当大型语言模型 (LLM) 提示的强大知识源。

以下是主要功能的摘要:

🔎 与 SQL、对象存储、主题建模、图形分析、多个向量索引后端(Faiss、Annoy、Hnswlib)的相似性搜索以及对外部向量数据库的支持
📄 为文本、文档、音频、图像和视频创建嵌入
💡 由运行问答、标记、转录、翻译、总结、LLM 提示等的语言模型提供支持的管道
↪️️ 将管道连接在一起并聚合业务逻辑的工作流。txtai 流程可以是简单的微服务或多模型工作流。
⚙️ 使用 Python 或 YAML 构建。可用于JavaScript、Java、Rust和Go的 API 绑定。
☁️ 可与容器编排系统(如 Kubernetes)横向扩展的云原生架构
集成矢量搜索、会话搜索、自动摘要、转录、翻译等。

以下应用程序由 txtai 提供支持。

txtchat - 所有人的对话搜索和工作流程
paperai - 医学/科学论文的语义搜索和工作流程
codequestion - 开发人员的语义搜索
tldrstory - 标题和故事文本的语义搜索
txtai 是用 Python 3.7+、Hugging Face Transformers、Sentence Transformers和FastAPI构建的

本文概述了 txtai 以及如何运行相似性搜索。

安装依赖
安装txtai和所有依赖项。
pip install txtai
创建嵌入实例
Embeddings 实例是 txtai 的主要入口点。Embeddings 实例定义了用于标记化文本部分并将其转换为嵌入向量的方法。
from txtai.embeddings import Embeddings

Create embeddings model, backed by sentence-transformers & transformers

embeddings = Embeddings({“path”: “sentence-transformers/nli-mpnet-base-v2”})
运行相似性查询
嵌入实例依赖于底层转换器模型来构建文本嵌入。以下示例显示如何使用转换器嵌入实例对不同概念列表运行相似性搜索。
data = [“US tops 5 million confirmed virus cases”,
“Canada’s last fully intact ice shelf has suddenly collapsed, forming a Manhattan-sized iceberg”,
“Beijing mobilises invasion craft along coast as Taiwan tensions escalate”,
“The National Park Service warns against sacrificing slower friends in a bear attack”,
“Maine man wins $1M from $25 lottery ticket”,
“Make huge profits without work, earn up to $100,000 a day”]

print(“%-20

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Q shen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值