大数据向量检索的细节问题

最新推荐文章于 2024-09-21 11:39:13 发布

小李飞刀李寻欢

最新推荐文章于 2024-09-21 11:39:13 发布

阅读量828

点赞数 2

分类专栏： NLP与推荐算法文章标签：大数据 CSS 向量检索 es 数据存储服务器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SPESEG/article/details/132301139

版权

NLP与推荐算法专栏收录该内容

152 篇文章 ¥399.90 ¥499.90

订阅专栏

超级会员免费看

本文探讨了大数据向量检索的问题，包括向量维度选择、数据存储优化、ES操作、requests与flask请求测试，以及对比不同检索方法的效果。通过实验发现，降低向量精度能有效节省存储空间，而在ES中删除无用数据、选择合适的数据格式至关重要。针对检索效率，1kw级别数据的暴力检索响应时间过长，提出了对专用向量库的需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景：现有亿级别数据（条数），其文本大小约为150G，label为字符串，content为文本。用于向量检索，采用上次的试验进行，但有如下问题需要面对：

1、向量维度及所需空间

向量维度一版采用768的bert系列的模型推理得到，openai也有类似的功能，不过是2倍的维度（即1536），至于哪个好坏，都宣称自己比较好，寡人实际应用中有实践：m3e-base似乎不错。

由于faiss需要float32的小数，根据下面试验，可以发现如果直接转成np.float32数据类型的数据然后直接进行存储（txt存储，每行进行存储），那么保留小数点后8位后存储的大小约为直接存储的数据的一半大小，同时节约了磁盘大小。在运行时，因为是大数据级别的，不建议将所有向量都求出来再进行存储，那样需要很大的内存，一般机器不支持，我这里的200G+的机器都over几次了。

存储试验：

res=np.random.randn

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小李飞刀李寻欢 您的欣赏将是我奋斗路上的动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。