《向量数据库指南》——AI应用长文本与RAG场景：搜索

ModaHub魔搭社区

于 2024-08-19 09:00:00 发布

阅读量290

点赞数 4

文章标签：人工智能数据库低代码 Milvus Cloud oracle

LCHub

本文链接：https://blog.csdn.net/qinglingye/article/details/141279185

版权

场景：搜索

搜索场景的选择

这种选择大概率是出于成本等的考量，不能承担太高的推理成本的。因为搜索是商业服务，而不是慈善业务。
所以如果每一个免费用户都花几美金的成本去承担query的成本，这肯定是付不起的。所以背后一定是做了大量的优化，Perplexity 宣称做了一些小一点的模型，并单独为这个场景做了模型优化，这样它能够把成本降下来。
大家会觉得RAG 就是成本很低，但量大情况也不一定。如果使用的体量非常大的话，向量数据库本身的存储成本，还有进行服务的serving 成本也是很高，也需要做一些优化。
比如Zilliz最近在做的冷热存储的切换，将价值不高、访问频次不高的数据放到冷存储里，以节省成本。如果用 RAG 都有成本的问题，那全都用大语言模型去付出高昂的推理成本，应该说在这些商业的产品里边一般是不现实的。
甚至刚才所说的coding场景成本下降都不一定很明显。举之前有客户疑问：Github Copilot 做的不错，是否拿长文本做的，"我把整个项目给丢进去了，然后我去问的时候，他这个回答的效果就很好，就是说他好像方方面面都照顾到了，那不就是长文本吗"。如果一个建库就需要超过 10 分钟，背后大概率是离线做了索引。当搜的时候，每一个 query的延迟，非常短，瞬间搜出来了，采用的技术一定不是长文本，是结合了RAG的。Github Copilot的建库时间较长，单次搜索延迟很短，

最低0.47元/天解锁文章

ModaHub魔搭社区

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
《向量数据库指南》——AI应用长文本与RAG场景：搜索

分两部分，第一部分是做语义检索，语义检索本质上是粗颗粒度的模糊的搜索，把这一篇网页分成 50 个片段，每个片段 500 个字，然后整个片段就生成一个向量，然后向量代表了这个网页抽象语义，或者是它的一个指纹或表征，这是一种抽取的方式，它并没有逻辑的关系。所以如果每一个免费用户都花几美金的成本去承担query的成本，这肯定是付不起的。至于向量怎么生成出来，拿深度神经网络模型训出来的，然后对齐了一些业务场景对模型的需求，就是语义相似的东西，就给把这个向量给分布到相似的空间里边的位置上，然后这是一部分的抽取。
复制链接

扫一扫