TiDB Vector 太香啦:以图搜图初体验!

本文介绍了TiDB Vector的使用体验,包括创建实例、向量检索原理及应用。通过Python SDK展示了以图搜图的流程,利用Towhee进行图片embedding,展示搜索准确度。此外,还探讨了使用向量索引优化性能,并尝试用自然语言进行图片搜索。TiDB Vector在非结构化数据搜索上的表现令人期待。
摘要由CSDN通过智能技术生成

导读


最早知道 TiDB 要支持向量化的消息应该是在 23 年 10 月份左右,到第一次见到 TiDB Vector 的样子是在今年 1 月初,当时 dongxu 在朋友圈发了一张图:

TiDB vector 示意图

去年我研究了一段时间的向量数据库,一直对 TiDB 向量特性非常期待,看到这张图真的就激动万分,于是第一时间提交了 waitlist 等待体验 private beta。

苦等几个月,它终于来了(目前只对 TiDB Serverless 开放)。迫不及待做个小应用尝尝鲜。
waitlist 申请入口:Built-In Vector MySQL Database
体验入口:TiDB Cloud

创建 TiDB Vector 实例

在收到体验邀请邮件后,恭喜你可以开始 TiDB Vector 之旅了。

TiDB Serverless 提供了免费试用额度,对于测试用途绰绰有余,只需要注册一个 TiDB Cloud 账号即可。

创建 TiDB Vector 实例和普通的 TiDB 实例并没有太大区别,在创建集群页面可以看到加入了如下开关:

Vector search

不过要注意的是目前 TiDB Vector 只在部分区域开放,大家可以根据实际情况选择

这里只需要填一个集群名称就可以开始创建,创建成功后的样子如下所示:

集群名称

下面开始进入正题。

关于向量的那些事

一些基础概念

  • 向量:向量就是一组浮点数,在编程语言中通常体现为 float 数组,数组的长度叫做维度(dim),维度越大精度越高,向量的数学表示是多维坐标系中的一个点。例如 RGB 颜色表示法就是一个简单的向量示例。

  • embedding:中文翻译叫嵌入,感觉不好理解,实质上就是把非结构化数据(文本、语音、图片、视频等)通过一系列算法加工变成向量的过程,这里面的算法叫做模型(model)。

  • 向量检索:计算两个向量之间的相似度。

向量检索初体验

连接到 TiDB Serverless 后,就可以体验文章开头图片中的向量操作。

创建一张带有向量字段的表,长度是 3 维。

CREATE TABLE vector_table (
    id int PRIMARY KEY,
    doc TEXT,
    embedding vector < float > (3)
  );

Copy

往表中插入向量数据:

INSERT INTO vector_table VALUES (1, 'apple', '[1,1,1]'), (2, 'banana', '[1,1,2]'), (3, 'dog', '[2,2,2]');

Copy

根据指定的向量做搜索:

SELECT *, vec_cosine_distance(embedding, '[1,1,3]') as distance FROM vector_table ORDER BY distance LIMIT 3;
+-----------------------+-----------------------+---------------------+
| id      | doc         | embedding             | distance            |
+-----------------------+-----------------------+---------------------+
| 2       | banana      | [1,1,2]               | 0.015268072165338209|
| 3       | dog         | [2,2,2]               | 0.1296117202215108  |
| 1       | apple       | [1,1,1]               | 0.1296117202215108  |
+---------+-------------+-----------------------+---------------------+
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

每天读点书学堂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值