以前我在spider的url去重上使用了直接查询url数据库的方法
这种方法当你在处理sohu.com首页如此多的连接的时候就意味着要查询如此多的数据库的操作
速度当然时一个字慢,一个首页需要消耗几分种时间
今天晚上 我改进了下,查询操作完全放在数组中操作,速度有了很大的提高,对于sohu首页也就是
几秒的时间就可以完成,时间的消耗主要就花在了下载网页的工作上。
这种方法当你在处理sohu.com首页如此多的连接的时候就意味着要查询如此多的数据库的操作
速度当然时一个字慢,一个首页需要消耗几分种时间
今天晚上 我改进了下,查询操作完全放在数组中操作,速度有了很大的提高,对于sohu首页也就是
几秒的时间就可以完成,时间的消耗主要就花在了下载网页的工作上。