搜索
龙仔941
这个作者很懒,什么都没留下…
展开
-
聚类算法-hnsw
1.hnsw 原理: 建立graph,目标是索引查询时候,可以从全局查找到距离最近点;为了在海量数据提速, 每个点的临近点要可以索引到全局变量,同时减少索引数据数量,所以要建立树形结构一样的数据形式,通过有限的节点搜索,得到全局的点。方式就是在插入时候,根据插入的先后,先插入的数据数量少,可以全局进行检索建立关联,后插入的数据。 建立多层 索引树, 每层的节点是下层的随机子元素,如此进行循环处理。相似度检索,每次从最上层检索最相近的点,然后继续进行检索,...原创 2021-09-09 13:52:16 · 703 阅读 · 0 评论 -
美团技术年货-算法篇-笔记
pretrain基于rnn elmo基于transformer gpt bertdownstream-task 分类 序列标注 句间关系判断 阅读理解nsp 任务对pretrain并没有太大的影响美团pretrain的优化:1.混合精度 fp16,fp32 训练加速2.美团业务预料加入预训练,领域迁移3.知识图谱加入,实体词,让mask 时候根据词为单位...原创 2020-02-01 18:28:25 · 436 阅读 · 0 评论 -
使用数据库使用全文索引
数据库的模糊搜索 和 搜索引擎的功能 不是一个概念。数据库的模糊搜索是不能走索引的,也不好实现搜索词的逻辑(与或非)和范围搜索(在特定的域中)。 能走的只有前缀索引,但是这大大限制了功能。不过使用数据库来实现搜索引擎也是一个思路,我有一个基于分布式数据库的全文索引的方案(代号x)相比solr或elasticsearch的区别如下:1 solr或elasticsearch是以转载 2016-11-18 15:01:02 · 1078 阅读 · 0 评论