1)搜索需求
人human 关键字key 信息infomation
阅读全文>
发表于 @ 2008年05月21日 12:57:00|评论(loading...)|举报|收藏
一 查询子系统1)逻辑表达式综合的搜索引擎通常支持逻辑与,逻辑或,逻辑非这三种操作.多个查询词的时候要进行逻辑操作,通常空格默认为&,如果在多个查询结果前进行预排序,那么就可以把原来复杂的逻辑操作转为有序集合的合并操作,时间复杂度仅为O(m+n). 2)排序a)文本排序文本内容是最重要的依据,而文本内容在词汇的集合,因此排序主要考虑到文本词汇的权重,涉及到的因素有:查询词的邻近关系,命中位置(包括标题,META关键词,还是正文),单篇文档中的命中频率. b)网页排序网页与文本的不同,是增加了meta元素和各种链接信息。因此网页的权重由三部分组成。网页权重= 文本词汇的基本权重 + 链接权重 + 查询用户行为的加权链接权重(url)主要考虑网页入度(对外链接数),镜像,目录深度。经典例子是google的pagerank. 3)分布式查询可以由一个模块向多个节点发出请求,然后对各个节点返回的结果进行合并,排序.这种情况应用在不相交数据集是能降低节点开销,提高节点容错性的.但要保证每一个文档的全部索引项在同一个节点上. 4)检索的IO瓶颈通过倒排索引得到文档位置去取内容时,或阅读全文>
发表于 @ 2008年05月21日 12:03:00|评论(loading...)|举报|收藏