对于百度索引中提供检索的数据只有百亿条,而现在每天增加的数据量已是2-3亿条,现在每一天增加的数据量是2003年一年数据的增长量.对于如此强势的增长,要对数据进行全部索引并在200-300个毫秒级返回检索结果几乎是不可能的,所以就要对数据进行优化.就好比较JVM的垃圾回收一样.数据是有时效性的,索引可以为分最新最常使用的,不常使用的,很少使用的,很老又不用的.所以可以多几个索引库,并对数据进行整理,对于时效性不强的可以向后面的索引里转移,检索时对这几个索引并发检索,最后将结果合并后返回用户.对于不用的数据只是一个保存,而不提供检索,或是在检索结果很少的情况下,再多增加一个链接"点击查看更多",点击后就去查找老而全的库,虽然返回时间可能会很长,但是用户体验的感受是不会降低的.
百度搜索技术沙龙感悟
最新推荐文章于 2024-07-19 14:32:34 发布