search engine
文章平均质量分 66
atomic_age
这个作者很懒,什么都没留下…
展开
-
处理重定向网页
搜索引擎中的spider负责从internet上下载网页等资源。但有一些网页是重定向的。对于重定向的网页在得到url和下载该网页时需要对其进行处理。 网页重定向可以在http头进行,如下面的http头 Date: Tue, 11 Apr 2006 08:14:17 GMT Server: Apache/2.0.54 (Fedora) Locati原创 2006-04-11 16:35:00 · 1279 阅读 · 0 评论 -
搜索引擎重复网页发现技术分析
搜索引擎重复网页发现技术分析 中科院软件所 张俊林TIMESTAMP:2006年6月1日 一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscrip转载 2006-06-10 19:14:00 · 1927 阅读 · 0 评论