近年来,人工智能发展迅速,特别是大语言模型的发展将人工智能又推上了一个新台阶。语义表示(embedding)虽然还做不到像图片数据那样无损表示,但是经过大语言模型的端到端学习,特别是多模型语料学习,使语义表示又更近了一步。这对于向量数据库来说又是一次发展机遇。
基于语义的检索,可以改进传统搜索引擎,语义检索相比于传统的以term为单位的检索,除了能召回包含关键字的数据,同时可以召回与查询句子同义表述的数据。实际应用时可以将两种召回源结果进行排序返回。
更可以用来做语义缓存。目前大模型对话API的调用比较费算力,其实有很多问题都是重复的,可以对用户的对话结果进行语义缓存,不用每次都要输入到模型进行推理,在一些单轮的场景还是比较实用的。
希望在不久的将来能完全跨越语义鸿沟,那时真的就是万物皆可embedding,所有的知识都会存储在向量数据库中,真正的人工智能才会到来。