论判断一个 URL 是否已经被爬虫处理

最新推荐文章于 2022-10-13 09:41:23 发布

lizhihaoweiwei

最新推荐文章于 2022-10-13 09:41:23 发布

阅读量2.5k

点赞数

分类专栏：搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lizhihaoweiwei/article/details/21004995

版权

搜索引擎专栏收录该内容

8 篇文章 0 订阅

订阅专栏

在我的爬虫里面，判断一个 URL 有没有被爬虫处理过，需要经历五层筛选。

1,是否 URL 的深度是否已经超出了配置的最大深度。

2.是否 URL 在起始站点 URL 队列里面。

3.是否已经在预处理队列里面了。

4.是否已经在处理过的队列里面了。

5.是否符合配置的 URL 匹配规则（正则表达式）。

先扯两点与我要描述的重点不相关的。

1.这五个判断应该按这样的顺序来判断，把代价更小，更有可能命中的判断放在前面，有助于提升效率。

2.这五个判断只有第二个不是必须的，但因为这个判断可以直接利用已存在的起始站点 URL 队列，这个队列比较小，代价比较小，如果在这里就把 URL 过滤掉是很幸运的。但这个比较不是必须的，因为开始站点 URL 必然也会出现在预处理队列或者已处理队列里，只不过这两个队列可能很大，相对于开始站点队列，匹配的效率会低一些。所以这一个判断只是用来优化的，不是必须的。

啰嗦了这么多，还没有说到我想说的东西。我想说的是，这个判断流程在链接处理线程与内容分析线程独立的时候，会存在 BUG 。什么？会有BUG？是的。而且这个BUG隐藏的很深。

我们先捋一下处理流程。链接分析线程从网页上获得多个 url ，用上面五个判断进行过滤，得到的有两类结果，一类是继续用于链接分析的 url ，一类是用于内容分析的 url 。这两类结果通过给上面五个判断输入参数达到分类的目的，比如，判断是不是在预处理队列里面时，对于链接分析 url 要判断是不是在链接分析 url 队列里面，而内容分析 url 要判断是不是在内容分析 url 队列里面，类似于此。只有一个判断的参数是一致的，判断是不是在数据库中，用的是一个表进行判断。很容易被忽略，如果一个 url 即用作链接分析也被用作了内容分析，那么，只有前一个判断是成立的，后一个判断是不成立的，那么它不会被用作后一种判断。这会遗漏很多需要进行分析的 url，所以应该在已处理 url 表中增加属性以标致该 url 用作什么分析。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

lizhihaoweiwei CSDN认证博客专家 CSDN认证企业博客

码龄13年

189: 原创

7万+: 周排名

189万+: 总排名

54万+: 访问

: 等级

5213: 积分

41: 粉丝

41: 获赞

26: 评论

157: 收藏

私信

关注

热门文章

分类专栏

C/C++ 40篇
linux 3篇
CUDA 1篇
Windows 5篇
实践，项目 2篇
算法 38篇
UNIX编程 4篇
数据库 4篇
服务器 4篇
搜索引擎 8篇
数学 4篇
编程语言原理 1篇
Java 45篇
项目管理 1篇
计算机网络 4篇
排列组合 2篇
前端 4篇
实践 8篇
项目 4篇
并发编程 7篇
Java-IO 7篇
大数据

最新评论

使用 jdMind 及改进
yyn_1111: 您好，在哪里可以拿到修改好的jsmind库以及使用方法，非常需要，谢谢您
数据库加字段不支持灰度发布和回滚的情况
yaliuhen: 实际的应用中，比你这情况更复杂。表结构怎删改抵押有可能，insert A() values () 删字段就不适用了
cpu 乱序执行与问题
QMCoder: 还有一点需要保证：b==1 时必然已经 a==1。这就要求CPU0上的 a==1 的执行效果先于 b==1 上完成。也就是，先写入 a==1，再写入 b==1。有个疑问， cpu0 a=1 写入了store buffer，然后b写入了cache line 对于cpu0而言，他现在的状态就是 a=1 b=1, 那么cpu1需要读a的时候，请求cpu0，获取到的不是a=1吗，那这样为啥需要sfence让cpu0刷新a到cacheline呢
Git 设置网络代理
杨Jack: 问题是第一次git clone github上的代码怎么办？
Derangement 问题
阿七sev: 伯努利寄错信问题，学习了

大家在看

【快速上手】linux环境下Neo4j的安装与使用

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。