URL判重:
Larbin中使用了hashTable将访问过的URLhash到位图中,如果该bitmap中对应位置为1则认为该URL访问过。
问题在于hash映射存在冲突,所以有可能误判,将没访问过的URL认为访问。
另一解决方案是在内存中维持2个map,一个map保存待访问的URL,一个map保存已访问过的URL。启动一线程定时
已访问过的map中的URL写入URL库,然后实时查询URL库。
问题在于URL库会增大难以迅速判重
异步下载网页?
在遇到服务器重置,和网页解析错误时如何保证健壮性?
Crawler中的问题
最新推荐文章于 2023-09-25 11:16:50 发布