爬虫
chengbinbbs
这个作者很懒,什么都没留下…
展开
-
爬虫策略
URL去重 将 URL 保存到数据库进行去重,比如 redis、MongoDB 将 URL 放到哈希表中去重,例如 hashset 将 URL 经过 MD5 之后保存到哈希表中去重,相比于上面一种,能够节约空间 使用 布隆过滤器(Bloom Filter)去重,这种方式能够节约大量的空间,就是不那么准确。 反反爬虫 使用代理来访问–>IP 代理库,随机 IP 代理。 随机顶级域名url...原创 2019-10-18 16:28:24 · 131 阅读 · 0 评论 -
使用nginx过滤网络爬虫
其实Nginx可以非常容易地根据User-Agent过滤请求,我们只需要在需要URL入口位置通过一个简单的正则表达式就可以过滤不符合要求的爬虫请求: ... location / { if ($http_user_agent ~* "python|curl|java|wget|httpclient|okhttp") { return 503; } # 正常...原创 2018-05-10 15:37:46 · 520 阅读 · 0 评论