原创 对spider的一个改进!收藏

新一篇: spider对文档内容的分析又一方法 | 旧一篇: 关于对sql2000查询结果进行相关度排序的测试

    以前我在spider的url去重上使用了直接查询url数据库的方法
这种方法当你在处理sohu.com首页如此多的连接的时候就意味着要查询如此多的数据库的操作
速度当然时一个字慢,一个首页需要消耗几分种时间
   今天晚上 我改进了下,查询操作完全放在数组中操作,速度有了很大的提高,对于sohu首页也就是
几秒的时间就可以完成,时间的消耗主要就花在了下载网页的工作上。

发表于 @ 2005年10月05日 22:45:00|评论(loading...)|编辑

新一篇: spider对文档内容的分析又一方法 | 旧一篇: 关于对sql2000查询结果进行相关度排序的测试

评论:没有评论。

发表评论  


当前用户设置只有注册用户才能发表评论。如果你没有登录,请点击登录
Csdn Blog version 3.1a
Copyright © 草屋主人