搜索引擎,最主要的是搜索速度,像百度、GOOGLE等大的搜索引擎,在上1000G可能上10000G的数据中怎样能得到想要的结果呢。
====================================================
冰雪儿个人作品主页 「www.yooice.com」
Copyright 2001-2004 yooice.com all rights reserved 版权声明:本站除收
藏栏目外均为冰雪儿原创作品,未经本人同意,请勿转载 ...
www.yooice.com/ 11K 2004-9-30 - 百度快照
www.yooice.com 上的更多结果
www.kombispace.com [ Kombi个人作品网站 ]
...,,,CD .........www.kombispace.com [ Kombi个人作品网站 ]www.kombispace
.com [ Kombi个人作品网站 ] ...VOL. 04 [ 2004/06/14 ] 注释:除注明外,
本站发表的作品版权归[ Kombi ]所有.未经许可不得转载...
www.kombispace.com/ 20K 2004-8-3 - 百度快照
www.kombispace.com 上的更多结果
大鸭梨
...的高中同学 二十不惑(小说连载) 钟情红色(爱情小说) 北京杂感集(杂文
) 小桃荒诞集(杂文) 小桃藏头诗集 书法艺术年表 原创书法笑话 书法临作欣
赏 创作作品欣赏 入展作品欣赏 VI形象标志设计作品 网站...
www.dayali.com/ 22K 2004-9-30 - 百度快照
==============================================================
这里平均每一条记录大概有300个字符。10条记录一页显示的话,有3000个字符
也就是将近2K多的字符量。
我们在查“电脑”关键词时,出现的记录数为:6,490,000篇,我们来算一下,会有多少字节
6490000*2K=12G多。其实也不是很大。这看起来是乎很大。但是我要考虑实际的情况,实际情况
和现实并不一样。
1。我们每次只能请求得到一个网页,也就是每次的实际数据流量只有2K左右,这对于我们对于2K数据作什么
操作都不会过多的影响速度
2。我们访问者把100页看完的人不过超过1/100000,也就是100后一年可能只有10个点击的可能。1000后可能就根本
没人点过。也就是说事实上我们没有必要去做这1000后的页或是100后的页。象百度的最大的页码就是76,根本没有100页。也就是加起的来的字符量就只有76*2K=152K这相对来就数据量是很少的。

本文探讨了大型搜索引擎如何在海量数据中快速获取搜索结果,分析了数据结构、查询优化和分布式处理等关键技术,强调了分词策略和数据库优化对速度的影响。通过对搜索引擎设计思路的分析,提出了解决高并发查询的解决方案,包括数据库分片、结果预生成和多进程查询等方法。
最低0.47元/天 解锁文章
5325

被折叠的 条评论
为什么被折叠?



