- 博客(4)
- 资源 (6)
- 收藏
- 关注
原创 深度文本匹配
1. 传统的文本匹配最近在了解文本匹配相关一些实现和算法。在信息检索系统里面,如何厘清文本的相关性,是一个非常关键的问题。所谓的相关性,主要包括两个方面, 一个方面是文本相关性,还有一个语义的相关性。在经典的模型里面,比较常见的做法是向量空间模型(vector space model)。向量空间模型, 原理则是将query和doc的文本映射成同一个数字向量空间,然后通过consine或者Jac...
2019-07-31 08:13:15 353
原创 向量检索的搜索引擎实现
1. 基本原理与推荐系统不同的是,搜索系统比较重要的用户特征是query,信息检索的过程则是根据query,给用户返回doc集合。传统的检索系统,对文本进行切词, 然后每个词下面会生成一个倒排索引。 query查询时,则是对query进行分词,然后到对应的词进行直接召回即可实现,数据集合的返回。有了数据集之后,如何给doc排序是一个比较关键的问题,毕竟人的精力是比较有限的,在浩渺的知识大海里...
2019-07-16 01:13:17 6003
原创 yum rpm 常用命令使用手册
1. yum 源直接使用yum命令实现对rpm包的搜索、安装以及yumdownloader下载rpm包,用于别的机器。yum search package_nameyum install package_nameyumdownloader package_name外部查找rpm包的网站:http://rpmfind.net/,el6的适用于tlinux1.2,而el7的适用于tlin...
2019-07-06 23:11:18 757
原创 Faiss 入门
1. Faiss 原理单元-探测(Cell-probe) 方法以失去保证以找到最近邻居为代价来加速该过程的典型方法是采用诸如k均值的分区技术。 相应的算法有时被称为 cell-probe 方法:我们使用基于多探测的基于分区的方法(可以联想到best-bin KD-tree的一种变体)。特征空间被划分为 ncells 个单元格。由于散列函数(在k均值的情况下,对最靠近查询的质心的分配)...
2019-07-01 00:37:30 4435
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人