爬虫
鎏风
一个人
展开
-
如何防止你的爬虫被网管一巴掌拍死
方法1.之前由于公司项目需要,采集过google地图数据,还有一些大型网站数据。经验如下:1.IP必须需要,像@alswl 说的非常正确,ADSL。如果有条件,其实可以跟机房多申请外网IP。2.在有外网IP的机器上,部署代理服务器。3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。好处:1.程序逻辑变化小,只需要代理功能。 2.根据对方网站屏蔽规则不同,你只需要添加更多的...转载 2018-11-24 16:26:59 · 2580 阅读 · 0 评论 -
知己知彼,百爬不殆 之 反爬虫的前世今生
编者:本文来自携程酒店研发部研发经理崔广宇在第三期【携程技术微分享】上的分享,以下为整理的内容概要。你被爬虫侵扰过么?当你看到“爬虫”两个字的时候,是不是已经有点血脉贲张的感觉了?千万要忍耐,稍稍做点什么,就可以在名义上让他们胜利,实际上让他们受损失。一、为什么要反爬虫1、爬虫占总PV比例较高,这样浪费钱(尤其是三月份爬虫)。三月份爬虫是个什么概念呢?每年的三月份我们会迎接一次爬虫高峰期。...转载 2018-11-24 17:09:43 · 381 阅读 · 0 评论 -
python selenium 根据文字定位
1、全部文字python:browser.find_element_by_xpath("//*[text()='花呗套现']").click()2、部分文字python:browser.find_element_by_xpath("//*[contains(text(),'花呗')]").click()原创 2018-12-19 16:49:46 · 890 阅读 · 0 评论 -
url去重
常见URL过滤方法1 直接查询比较假设要存储url A,在入库前首先查询url库中是否存在 A,如果存在,则不入库,否则入库。这种方法准确性高,但是一旦数据量变大,占用的存储空间也变大,同时,由于要查库,数据一多,查询时间变长,存储效率下降。2 基于hashlib(MD5,SHA1摘要算法)的存储对于给定的url,通过hash函数生成对应的hash值,并将该值存入库中。当在检查url是否...原创 2019-02-17 18:09:29 · 415 阅读 · 1 评论