/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/
搜索引擎CACHE策略研究
张俊林
timestamp:2005年10月
一.关于搜索引擎用户查询得出的结论:
(1) 用户查询有很大比例的重复性。有30%到40%的用户查询是重复查询。
(2) 大多数重复的用户查询会在较短的间隔时间被再次重复访问。
(3) 大多数用户的查询是短查询,大约包含2-5个单词。
(4) 用户一般只查看返回结果的前三个页面(前30个返回结果)。58%用户只查看第一个页面(TOP 10),15%用户查看第二个页面,不超过12%的用户会查看第三个页面以后的检索结果。
(5) 关于用户查询差异程度。有比较大的查询程度,一百万个用户查询中大约63.7%的用户查询只出现过一次。另外一方面,集中的重复查询也非常集中:25个高频查询大约占总查询的1.23%-1.5%.
二.CACHE的基本策略
(1)