TinyVector 开源项目教程
项目介绍
TinyVector 是一个基于 SQLite 和 PyTorch 构建的小型最近邻嵌入数据库。它旨在为小型到中型数据集提供快速的查询速度,并且易于扩展到 100 万+ 向量维度。TinyVector 是开源的,采用 MIT 许可证,并且正在不断升级,未来将支持完整的 SQL 查询功能和集成模型。
项目快速启动
安装依赖
首先,确保你已经安装了 Python 和 Rust。然后,克隆项目仓库并安装所需的依赖:
git clone https://github.com/0hq/tinyvector.git
cd tinyvector
pip install -r requirements.txt
启动服务器
运行以下命令启动服务器:
python -m server
运行测试
你可以通过以下命令运行测试:
pytest
应用案例和最佳实践
文档搜索
TinyVector 非常适合用于简单的文档搜索场景。例如,你可以使用嵌入向量来与你的文档进行交互,而无需复杂的加速搜索技术如 HNSW 或 FAISS。
网站或商店搜索
对于网站或商店的搜索功能,除非你正在销售 1,000,000 件商品,否则 TinyVector 是一个更好的选择。它提供了足够的性能和灵活性。
典型生态项目
集成模型
TinyVector 正在升级以支持集成模型,这意味着你将能够在服务器上自动生成向量,而无需自己提供。这将支持 SBert、Hugging Face 模型、OpenAI、Cohere 等。
Python/JS 客户端
TinyVector 将提供一个全面的 Python 和 JavaScript 包,以便于与 TinyVector 进行集成。这将在接下来的两周内发布。
通过以上步骤和案例,你可以快速上手并充分利用 TinyVector 的功能。