- 博客(3)
- 收藏
- 关注
原创 搜索引擎索引之如何建立索引
本文节选自《这就是搜索引擎:核心技术详解》第三章3.4建立索引 正如前述章节所述,索引结构如果建立好了,可以增加搜索的速度,那么给定一个文档集合,索引是如何建立起来的呢?建立索引的方式有很多种,本节叙述比较实用的三种建立索引的方法。 3.4.1两遍文档遍历法(2-Pass In-Memory Inversion) 顾名思义,此种方法需要对文档
2012-02-27 21:27:52 29409 7
原创 搜索引擎索引之索引基础
本文节选自《这就是搜索引擎:核心技术详解》第三章 本节通过引入简单实例,介绍与搜索引擎索引有关的一些基础概念,了解这些基础概念对于后续深入了解索引的工作机制非常重要。 3.1.1单词—文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。
2012-02-13 22:00:10 16511 8
原创 搜索引擎链接算法之:HITS算法解析
本文节选自《这就是搜索引擎:核心技术详解》第六章 HITS算法也是链接分析中非常基础且重要的算法,目前已被Teoma搜索引擎(www.teoma.com)作为链接分析算法在实际中使用。6.4.1 Hub页面与Authority页面 Hub页面和Authority页面是HITS算法最基本的两个定义。所谓“Authority”页面,是指与某个领域或者某个
2012-02-06 21:25:00 16811 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人