![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语义编码
文章平均质量分 54
真炎破天
这个作者很懒,什么都没留下…
展开
-
常用向量检索系统
K近邻算法(K-Nearest Neighbor, KNN)解决的问题:如何快速从数据集中找到和目标样本最接近的K个样本距离度量方法:欧式距离、余弦距离、曼哈顿距离、dot内积近似最近邻算法(Approximate Nearest Neighbor, ANN)ANN是一种通过牺牲精度来换取时间和空间的方式从大量样本中获取最近邻的方法,具有存储空间少、查找效率高等优点实现方法:二叉树结构(比如Annoy)、图结构(HNSW)、基于量化的索引类型(IVF_FLAT、IVF_SQ8、IVF_PQ)原创 2021-12-03 15:08:23 · 675 阅读 · 0 评论 -
文本向量编码及其应用
每个文本的语义都可以表示为一个多维空间内的点,相似文本的点应该距离相对较近,反之,语义无关的点距离应该相对较远。文本的语义向量有较多的应用场景,比如:EBR(embedding retrieval)、相似文本聚类等。接下来的3个章节将具体讲述文本的语义编码及其应用。语义编码模型框架训练数据获取模型蒸馏模型效果评测服务部署干预平台相同语义话术召回相同语义话术召回逻辑向量检索系统Milvus键值对存储Redis长尾query进行相似语义聚类聚类算法大数据下spark聚类评原创 2021-10-18 22:51:23 · 225 阅读 · 0 评论