之前的问题:(非常之坑爹,xpath检查了好久都没发现哪有问题)
https://blog.csdn.net/poundsPLUS/article/details/124544059?spm=1001.2014.3001.5502
这两天爬了个动态渲染的网页,国外的网站,一开始挂梯子上去,总是加载error或空值,我当时就想着是不是因为爬墙又被认出啥东东的,就不敢用。后来才发现翻墙爬虫是真的快啊,其实是真的没有什么毛病的。
就是有时候会给蹦出个登录窗口,像下面这样(我曾尝试过利用driver登录,妄想着就不会总是给我出这种弹窗吧,后来发现selinium自动化的浏览器不能支持登录,可能是kaggle的机制吧)所以我一开始就在总想着怎么把这个登录页面解决了,想着点一下什么地方,然后返回,反正我都在侧重于如何不让这个弹窗出现,以至于我time.sleep一个实体都快爬一分钟了,简直搞笑。但即使是这种情况下,它还是会动不动就弹出来!!任何时候都有可能
我意识到,可能是因为kaggle在游客(没有账号登录的人)多浏览了几个网页之后就会弹出这个吧===>(后面可以做一下验证),所以不管我sleep多久,只要我多浏览了几个页面,他就会催我登录;换句话说,sleep对解决它是否弹出来没有任何帮助
所以我的思路由之前 要解决此弹窗 转变为 什么时候出现弹窗就重新driver.get一下,乂,就可以了!我管你什么时候出现的这个登录弹窗,你既然随时都有可能弹出来,我就不管,重新get一下
这样我也就不用动不动就sleep那么长时间。。也很快