txtai系列教程
翻译自 : https://dev.to/neuml/export-and-run-models-with-onnx-fof
本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。
txtai介绍
txtai执行机器学习工作流来转换数据并构建人工智能驱动的语义搜索应用程序。
传统的搜索系统使用关键字来查找数据。语义搜索应用程序了解自然语言并识别具有相同含义的结果,不一定是相同的关键字。
在最先进的机器学习模型的支持下,数据被转换为用于搜索的向量表示(也称为嵌入)。创新正在快速发生,模型可以理解文档、音频、图像等中的概念。
以下是主要功能:
- 🔎 具有多个索引后端(Faiss,Annoy,Hnswlib)的大规模相似性搜索
- 📄 为文本片段、文档、音频、图像和视频创建嵌入。支持转换器和词向量。
- 💡 机器学习管道,用于运行提取式问答、零样本标记、转录、翻译、摘要和文本提取
- ↪️️ 将管道连接在一起以聚合业务逻辑的工作流。txtai 流程可以是微服务或成熟的索引工作流。
- 🔗 JavaScript、Java、Rust和Go 的API 绑定
- ☁️ 使用容器编排系统(例如 Kubernetes)向外扩展的云原生架构
应用范围从相似性搜索到复杂的 NLP 驱动的数据提取以生成结构化数据库。以下应用程序由 txtai 提供支持。
- paperai - 医学/科学论文的人工智能驱动的文献发现和审查引擎
- tldrstory - 人工智能驱动的标题和故事文本理解
- neuspo - 以事实为导向的实时体育赛事和新闻网站
- codequestion - 直接从终端询问编码问题
txtai 使用 Python 3.6+、Hugging Face Transformers、Sentence Transformers和FastAPI 构建
txtai目录
- 1.txtai 初识
- 2.使用 Hugging Face 数据集构建 Embeddings 索引
- 3.从数据源构建嵌入索引
- 4.将语义搜索添加到 Elasticsearch
- 5.使用 txtai 进行抽取式 QA
- 6.使用 Elasticsearch 进行抽取式 QA
- 7.使用零样本分类应用标签
- 8.txtai API 库
- 9.构建抽象文本摘要
- 10.从文档中提取文本
- 11.将音频转录为文本
- 12.在语言之间翻译文本
- 13.图像相似度搜索
- 14.运行管道工作流
- 15.分布式嵌入集群
- 16.训练一个文本标签
- 17.无标签训练
- 18.使用 ONNX 导出和运行模型
- 19.训练 QA 模型
- 20.提取 QA 以构建结构化数据
- 21.导出并运行其他机器学习模型
- 22.使用可组合的工作流转换表格数据
- 23.张量工作流程
- 24.txtai 4.0 新功能
- 25.生成图像说明并检测对象
- 26.实体提取工作流程
- 27.工作流调度
- 28.[使用工作流推送通知]