Datawhale(爬虫):session和cookie,ip代理知识,selenium的使用
IP:网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问如若出现以上问题,怎么解决呢?1.修改请求头,模拟浏览器(而不是代码去直接访问)去访问2.采用代理IP并轮换3.设置访问时间间隔如何获取1、从该网站获取: https://www.xicidaili.com/2、inspect -> 鼠标定位:3、要获取的代理I...
原创
2020-04-27 20:24:24 ·
263 阅读 ·
0 评论